研究問題
當使用自動技術對一幅圖像描述進行評價時,應該與專家的圖像描述一致。常用的一些句子相似度評價度量如基於 BLEU 的機器翻譯評分指標。然而這些方法的結果與人的評價相差很遠。現在介紹的 CIDEr 評估指標則是測量一個句子與一組人為生成真實句子的相似性,可以考慮語法、重點以及精度全部考慮在內。
研究背景
在自然語言處理中,給定一幅圖像,機器自動生成圖像描述具有廣泛的應用。但是如何評價一個圖像機器生成的描述是非常具有挑戰性。現在介紹如何自動評價一幅圖像描述的品質,即基於共識 (consensus-based) 的評價方法。
假如每一幅圖像具有 50 個人工圖像描述,機器生成的圖像描述與這 50 個人工描述進行比較,得到選票多的機器圖像描述為最合適的描述。
這種共識方法要求比較候選描述句子與參考描述句子的相似性比較,所以需要對每一個描述句子定義一個向量描述。使用 n-gram 作為句子特徵描述候選句子和參考句子。
給定一幅圖像,假如有 50 個專家生成的參考句子(R1–R50)描述這幅圖像,有兩個需要評價的候選句子 C1 和 C2,從參考句子中任意選擇一個句子稱為 A,和 B 與 C 一起構成三元註釋。我們需要對 B 和 C 進行評價,看哪一個與句子 A 更相似。
共識方法會在 B 和 C 之中選出一個,並使用每一條參考句子與 A 一起形成三元標註。參考句子透過投票給出候選 B 或 C 與參考 A 的相似性評分,最後根據共識評分結果得出:究竟是 B 或 C 與參考 A 更相似。
CIDEr 自動評價一幅圖像 Ii 的描述品質,使用共識方法評價一個候選圖像標註 ci 匹配一組專家生成圖像描述 。首先把候選句子和參考句子中所有的詞映射到它們的 stem 或 root 形式。例如,fishes、fishing、fished 映射為根詞 fish。每個句子都表示為一組 n-gram 形式,例如 unigram、bigram、trigram 和 4-gram。
共識測量候選句子中 n-gram 在參考句子出現的頻度。n-gram 經常出現在資料集中不同圖像中,應該給予低的加權權重,因為這些 n-gram 包含較少資訊。為了對這些 n-gram 進行加權,使用 TF-IDF 計算每個 n-gram 的權重。n-gram ωk 在參考句子 sij 中出現的次數表示為 hk(sij),或在候選句子出現的次數 hk(ci)。計算每一個 n-gram ωk 的 TF-IDF 權重 gk(sij):
gk(sij)=∑ωl∈Ωhl(sij)hk(sij)log∑Ip∈Imin(1,∑qhk(spq))∣I∣
其中,Ω 是包含所有 n-gram 的詞庫,I 是資料庫中所有圖像集合。第一項測量每一個 n-gram ωk 的 TF,第二項使用 IDF 測量 ωk 的稀缺性(rarity)。第一項 TF 會給經常出現在參考句子中的 n-gram 較高權重,第二項則用來降低這個權重。
IDF 會減少經常出現在資料集圖像中 n-gram 的權重;也就是透過降低常用詞(通常資訊量較少)的權重,來提高重點詞的權重。IDF 的計算概念是用資料集中的圖像總數 ∣I∣ 去除以該詞(例如 n-gram ωk)出現過的圖像數量(document frequency)。
長度為 n 的 n-gram 之評分,使用候選句子與參考句子的 cosine 相似度 取平均來計算,用以反映 precision 與 recall:
CIDErn(ci,Si)=m1j∑∥gn(ci)∥∥gn(sij)∥gn(ci)⋅gn(sij)
其中,gn(ci) 是由 gk(ci) 形成的向量,對應所有長度為 n 的 n-gram;gn(sij) 是由 gk(sij) 形成的向量,對應所有長度為 n 的 n-gram。使用較大的 n 可捕捉更多語法特性與更豐富的語義特性。將不同長度 n 的 n-gram 分數加總(加權)可得:
CIDErm(ci,Si)=n=1∑NωnCIDErn(ci,Si)
實驗發現,取 N=4、且 ωn=1/N 通常可以得到很好的結果。
資料集
於論文中學者們提出兩個新的資料集,分別為PASCAL-50S 和 ABSTRACT-50S,用以評估影像描述生成方法。兩個資料集中,每張影像分別有 50 個參考句子,影像數量分別為 1,000 張和 500 張。這些資料集旨在作為「測試」資料集,設計上用於支援共識式評估。
Ref:
CIDEr Metric || Image Captioning || Deep Learning
Consensus-based Image Description Evaluation
留言
張貼留言