[論文筆記]CIDEr: Consensus-based Image Description Evaluation


年份:2015年
期刊:CVPR

研究問題
當使用自動技術對一幅圖像描述進行評價時,應該與專家的圖像描述一致。常用的一些句子相似度評價度量如基於 BLEU 的機器翻譯評分指標。然而這些方法的結果與人的評價相差很遠。現在介紹的 CIDEr 評估指標則是測量一個句子與一組人為生成真實句子的相似性,可以考慮語法、重點以及精度全部考慮在內。


研究背景
在自然語言處理中,給定一幅圖像,機器自動生成圖像描述具有廣泛的應用。但是如何評價一個圖像機器生成的描述是非常具有挑戰性。現在介紹如何自動評價一幅圖像描述的品質,即基於共識 (consensus-based) 的評價方法。

假如每一幅圖像具有 50 個人工圖像描述,機器生成的圖像描述與這 50 個人工描述進行比較,得到選票多的機器圖像描述為最合適的描述。

這種共識方法要求比較候選描述句子與參考描述句子的相似性比較,所以需要對每一個描述句子定義一個向量描述。使用 n-gram 作為句子特徵描述候選句子和參考句子。

給定一幅圖像,假如有 50 個專家生成的參考句子(R1–R50)描述這幅圖像,有兩個需要評價的候選句子 C1 和 C2,從參考句子中任意選擇一個句子稱為 A,和 B 與 C 一起構成三元註釋。我們需要對 B 和 C 進行評價,看哪一個與句子 A 更相似。

共識方法會在 B 和 C 之中選出一個,並使用每一條參考句子與 A 一起形成三元標註。參考句子透過投票給出候選 B 或 C 與參考 A 的相似性評分,最後根據共識評分結果得出:究竟是 B 或 C 與參考 A 更相似。

CIDEr 自動評價一幅圖像 IiI_i 的描述品質,使用共識方法評價一個候選圖像標註 cic_i 匹配一組專家生成圖像描述 Si={si1,si2,,sim}S_i=\{s_{i1}, s_{i2}, \ldots, s_{im}\}首先把候選句子和參考句子中所有的詞映射到它們的 stem 或 root 形式。例如,fishes、fishing、fished 映射為根詞 fish。每個句子都表示為一組 n-gram 形式,例如 unigram、bigram、trigram 和 4-gram。

共識測量候選句子中 n-gram 在參考句子出現的頻度。n-gram 經常出現在資料集中不同圖像中,應該給予低的加權權重,因為這些 n-gram 包含較少資訊。為了對這些 n-gram 進行加權,使用 TF-IDF 計算每個 n-gram 的權重。n-gram ωk\omega_k 在參考句子 sijs_{ij} 中出現的次數表示為 hk(sij)h_k(s_{ij}),或在候選句子出現的次數 hk(ci)h_k(c_i)。計算每一個 n-gram ωk\omega_k 的 TF-IDF 權重 gk(sij)g_k(s_{ij})

gk(sij)=hk(sij)ωlΩhl(sij)logIIpImin(1,qhk(spq))g_k(s_{ij}) = \frac{h_k(s_{ij})}{\sum_{\omega_l\in\Omega} h_l(s_{ij})} \log \frac{|I|}{\sum_{I_p\in I}\min\left(1,\sum_q h_k(s_{pq})\right)}

其中,Ω\Omega 是包含所有 n-gram 的詞庫,II 是資料庫中所有圖像集合。第一項測量每一個 n-gram ωk\omega_k 的 TF,第二項使用 IDF 測量 ωk\omega_k 的稀缺性(rarity)。第一項 TF 會給經常出現在參考句子中的 n-gram 較高權重,第二項則用來降低這個權重。



IDF 會減少經常出現在資料集圖像中 n-gram 的權重;也就是透過降低常用詞(通常資訊量較少)的權重,來提高重點詞的權重。IDF 的計算概念是用資料集中的圖像總數 I|I| 去除以該詞(例如 n-gram ωk\omega_k)出現過的圖像數量(document frequency)。

長度為 nnn-gram 之評分,使用候選句子與參考句子的 cosine 相似度 取平均來計算,用以反映 precisionrecall

CIDErn(ci,Si)=1mjgn(ci)gn(sij)gn(ci)gn(sij)\mathrm{CIDEr}_n(c_i, S_i) = \frac{1}{m}\sum_{j} \frac{g^{n}(c_i)\cdot g^{n}(s_{ij})}{\left\lVert g^{n}(c_i)\right\rVert \left\lVert g^{n}(s_{ij})\right\rVert}

其中,gn(ci)g^{n}(c_i) 是由 gk(ci)g_k(c_i) 形成的向量,對應所有長度為 nn 的 n-gram;gn(sij)g^{n}(s_{ij}) 是由 gk(sij)g_k(s_{ij}) 形成的向量,對應所有長度為 nn 的 n-gram。使用較大的 nn 可捕捉更多語法特性與更豐富的語義特性。將不同長度 nn 的 n-gram 分數加總(加權)可得:

CIDErm(ci,Si)=n=1NωnCIDErn(ci,Si)\mathrm{CIDEr}_m(c_i, S_i) = \sum_{n=1}^{N}\omega_n \mathrm{CIDEr}_n(c_i, S_i)

實驗發現,取 N=4N=4、且 ωn=1/N\omega_n = 1/N 通常可以得到很好的結果。


資料集
於論文中學者們提出兩個新的資料集,分別為PASCAL-50S 和 ABSTRACT-50S,用以評估影像描述生成方法。兩個資料集中,每張影像分別有 50 個參考句子,影像數量分別為 1,000 張和 500 張。這些資料集旨在作為「測試」資料集,設計上用於支援共識式評估。

Ref:
CIDEr Metric || Image Captioning || Deep Learning
Consensus-based Image Description Evaluation

留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理