從影像辨識進展到影像理解_PART1.概況筆記

近年來,影像辨識技術正以各種形式支援著人類的生活。
例如:智慧型手機透過臉部辨識進行解鎖;在視訊會議中,為了模糊背景,會使用影像辨識技術將人物與背景分離。

「影像辨識」是指「利用電腦對影像中的物體或人物動作、文字等進行分類與識別」。
近年來影像辨識已進化到能對輸入影像進行物體或行為分類後,進而生成描述該影像的文字。這種高階技術有時會與影像辨識區分開來,稱為「影像理解」 (Image Understanding)

雖然影像辨識技術多樣,但並不代表每種技術都完全不同。隨著近年深度學習 (Deep Learning) 的發展,機器學習模型的通用化程度提高,不同的問題往往能用幾乎相同的技術解決。

人類透過感覺器官感知的資訊會轉換為電氣訊號進行處理,並應用於識別。

然而,視覺資訊並非一開始就是以電氣訊號的形式從現實世界傳來,而是光信號。因此,人類要處理視覺資訊,首先需要一個能將光信號轉換為電氣訊號的「感測器」。
在人體中負責感測器角色的是眼睛。從現實世界進入眼睛的光信號會透過「水晶體」進行對焦,並投影到「視網膜」上。視網膜將投影的光信號轉換為電氣訊號,並輸出至視神經。

電腦內部的訊息交換也是透過電氣訊號進行。因此,電腦要活用視覺資訊,同樣需要感測器,而扮演這個角色的就是相機。
https://www.geeksforgeeks.org/computer-vision/computer-vision/

在相機中,來自現實的光信號會透過「鏡頭」進行對焦,投影到「感光元件」上。感光元件將投影的光信號轉換為電氣訊號,寫入相機記憶體中或傳輸至外部裝置。

而現今智慧型手機標榜的「1200 萬畫素」這類數值,代表的就是建構成感光元件的受光元件數量。投影到感光元件的光信號會由各個受光元件轉換為電氣訊號,因此元件數量越多,越能將影像轉換為細膩的電氣訊號。

影像辨識的處理流程(在深度學習出現之前)
輸入影像 => 特徵提取(Feature Extraction) => 分類.迴歸 => 輸出結果
  • 特徵提取:指將輸入影像轉換為電腦易於處理的「特徵」。例如,從影像明暗差異中提取出的「邊緣特徵」、從顏色中提取出的「顏色特徵」,進而整合這些資訊來表現物體零件的特徵。此外,在提取過程中也會排除雜訊等干擾辨識的資訊。
  • 特徵量 (Feature Value):提取出來的特徵稱為特徵量,通常以向量 (Vector) 的形式來存取使用。
  • 分類 (Classification):將辨識對象分配到離散類別的處理。
    例如在區分貓與狗時,將狗分配為 0、貓分配為 1,並以此推算。
  • 迴歸 (Regression):用於推算連續數值。
    例如推測狗的大小(重量或身長)時,數值是連續變化的,此時直接推算數值(而非僅分類為 0 或 1)較為合適。

電腦會對特徵提取得到的特徵量進行分類.迴歸處理。尤其可特別被放大檢視的就是特徵提取與分類/迴歸的處理是明確分開的,且各自的方法需要由人工設計。

然而,自從深度學習登場後,特徵提取與分類/迴歸通常會整合在同一個神經網路 (Neural Network) 中。這兩者之間的界線變得不再那麼明顯。,當然也仍有單獨轉用神經網路的特徵提取部分的手法。







留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理