深度估測技術研究_Depth Pro:在不到一秒的時間內獲得清晰的單目公制深度_用python結合Yolo11測試實作
蘋果 AI 研究團隊於2024年10月,提出一款新模型「Depth Pro」,Depth Pro 在未知的新影像情境下,仍可立即準確估測深度,而無需額外學習或校準。 https://machinelearning.apple.com/research/depth-pro https://github.com/apple/ml-depth-pro?tab=readme-ov-file https://arxiv.org/pdf/2410.02073 提出了一個零鏡頭度量單目深度估計的基礎模型。 Depth Pro 模型合成了高解析度深度圖,具有無與倫比的清晰度和高頻細節。上圖中可看到比較靠近的呈現較深濃的紅色,較遠的則相對是冷綠色。 預測是不依賴於元數據(如相機內部函數)的。而且該模型速度很快,在 GPU 上可在 0.3 秒內生成 225 萬像素 depth map。不過我這邊於colab上實測還是稍微跑要點時間,大概要2~5秒網路延遲也有可能。 這些特性是由許多技術貢獻實現的,包括用於密集預測的高效多尺度視覺轉換器、結合真實和合成數據集以實現高度量精度以及精細邊界追蹤的訓練協議、估計深度圖中邊界精度的專用評估指標,以及來自單個圖像的最先進的焦距估計。 Depth Pro 提供了現階段最精準且高解析度的單目深度估測模型,適合各種互動式視覺應用。然而,模型仍有一些局限性,如對半透明或具有體積散射的物體效果有限(例如煙霧、水氣等)。 英文論文中出現的專業術語: Zero-shot learning (零樣本學習): 模型能處理訓練時未見過的資料,不需額外調整或微調。 Monocular depth estimation (單目深度估測): 僅憑單張2D影像估測出物體真實的深度距離。 Metric depth (度量深度): 預測的深度值具有真實尺度(例如以公尺為單位的絕對距離)。 Vision Transformer (ViT): 基於Transformer的深度學習架構,透過自注意力機制(Self-Attention)處理影像資料。 Multi-scale architecture (多尺度架構): 模型同時考慮不同解析度尺度的資訊,以更準確地捕捉局部細節與全域資訊。 Boundary tracing (邊界追蹤): 在深度估測任務中,準確識別和追蹤物體邊緣...