發表文章

目前顯示的是有「研究探討」標籤的文章

【YOLOv8】姿態(動作)識別_俯臥撐計數

圖片
  用 Ultralytics YOLOv8 Pose 模型(yolov8x-pose.pt)搭配 AIGym 解決方案模組,對影片中的人物進行姿態辨識與伏地挺身(push-up)動作計數。 up_angle:如果角度超過這個值,代表身體在「上推」階段 down_angle:如果角度低於這個值,代表身體在「下壓」階段 kpts=[5, 7, 9],分別是左肩(left shoulder)、左肘(left elbow)、左手腕(left wrist) 用這三個點計算手臂夾角,以判斷 push-up 是否完成一個動作。 偵測深蹲的話kpts 就可以類似改成 [11,13,15] https://github.com/Alimustoofaa/YoloV8-Pose-Keypoint-Classification?tab=readme-ov-file 測試程式 import cv2 from ultralytics import solutions MODEL_PATH = "yolov8x-pose.pt" #yolov8x-pose.pt , yolo11n-pose.pt VIDEO_PATH = "fuwocheng.mp4" gym = solutions . AIGym( model = MODEL_PATH, kpts = [ 5 , 7 , 9 ], # 指定關鍵點:左肩-左肘-左手 up_angle = 100 , down_angle = 80 , line_width = 2 , show = False ) cap = cv2 . VideoCapture(VIDEO_PATH) if not cap . isOpened(): print ( "Error: Could not open video." ) exit () # ===== 新增:控制視窗大小與位置 ===== window_name = "Processed Frame" cv2 . namedWindow(window_name, cv2 . WINDOW_NORMAL) cv...

【YOLOv8】物件偵測與識別測試

圖片
  Yolo V8使用 pytorch 開發的,因此這邊採用Pycharm Community開發工具。 並進行Pytorch下載引入 開發測試環境Windows 11 電腦 Acer Predator PH315-54-72VQ 電競筆記型電腦 https://store.acer.com/zh-tw/ph315-54-72vq 處理器:Intel® Core™ i7-11800H 記憶體:32GB DDR4 3200MHz Memory 硬碟:512GB PCIe NVMe SSD 顯卡:NVIDIA® GeForce RTX™ 3070 記得先在Pycharm創建好Project-based的venv,這邊採用Python3.8。 之後依序執行已下指令把Pytorch需要的給裝一裝,安裝對應 CUDA 11.8 的 PyTorch 套件。 不要採用Anaconda內建虛擬環境提供的不支援GPU的Pytorch。 電腦有GPU顯卡用這下載方式的指令 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --no-cache-dir 電腦無GPU顯卡只能用CPU跑用這下載方式的指令 pip install torch torchvision torchaudio --no-cache-dir YOLO在演進到6之後版本就交由ultralytics這間公司團隊繼續精進研發。 到了第八版算是成熟也十分多產品在使用的版本。(目前最新還有出到11的樣子) pip install ultralytics CUDA 與 cuDNN 的關係與角色 CUDA(Compute Unified Device Architecture) 是 NVIDIA 開發的一套平行運算平台與程式設計模型,底層是用 C/C++ 所實作,允許開發者撰寫程式碼,並將運算密集的任務交由 GPU(圖形處理器) 處理。 CUDA 提供一組 API,可以讓像 Python、C++ 等高階語言編寫的程式,透過 CUDA 將資料與任務分派到 GPU 執行。 當 Python 呼叫如 TensorFlow、PyTorch 等深度學習框架中的 GPU 運算時,其實是透過這些框架內部...

圖像描述/影像自動語義生成 (Image Captioning)看圖說故事_V2L問題(Visual-to-Language)

圖片
  https://www.oreilly.com/library/view/deep-learning-for/9781788295628/89def52b-a455-4a2f-b51e-23b74e154bd0.xhtml Image captioning is the task of describing the image with text 圖像描述主要應用十分多領域 從醫學影像產生臨床報告 旅遊照之情感分析與自動撰寫評論 影片摘要 視覺問答 國內各大院校研究論文 國立交通大學-資訊學院資訊學程/深度學習–旅遊照之情感分析與自動撰寫評論(2019) https://hdl.handle.net/11296/mh28rj 國立中山大學-電機工程學系研究所/基於 Transformer 具領域外泛化能力之影像標題生成(2021) https://hdl.handle.net/11296/mmenf5 國立成功大學-資訊工程學系/基於模態轉換和大型語言模型的視覺問答(2023) https://hdl.handle.net/11296/95bdq4 大同大學/資訊工程學系/利用數種深度學習搭配注意力機制對胸腔X光照做醫療報告生成(2023) https://hdl.handle.net/11296/55b3js 朝陽科技大學-營建工程系/工地影像字幕生成技術初探-以工地危害描述為例(2024) https://hdl.handle.net/11296/4jhbej 國立臺灣科技大學-工業管理系/結合圖片描述技術與影片標題於影片摘要預測之應用(2024) https://hdl.handle.net/11296/zxz842 國立清華大學-資訊系統與應用研究所/使用基於圖形的深度轉換器與大型語言模型來從醫學影像產生臨床報告(2024) https://hdl.handle.net/11296/az53h4 Image Captioning in news report scenario https://arxiv.org/abs/2403.16209 Mitigating Gender Bias in Natural Language Processing: Literature Review https://arxiv.org/abs/1906.0897...