[論文筆記]CIDEr: Consensus-based Image Description Evaluation

- 1月 20, 2026

https://www.youtube.com/watch?v=pVlcRbfCL6k

年份:2015年

期刊:CVPR

研究問題

當使用自動技術對一幅圖像描述進行評價時，應該與專家的圖像描述一致。常用的一些句子相似度評價度量如基於 BLEU 的機器翻譯評分指標。然而這些方法的結果與人的評價相差很遠。現在介紹的 CIDEr 評估指標則是測量一個句子與一組人為生成真實句子的相似性，可以考慮語法、重點以及精度全部考慮在內。

研究背景

在自然語言處理中，給定一幅圖像，機器自動生成圖像描述具有廣泛的應用。但是如何評價一個圖像機器生成的描述是非常具有挑戰性。現在介紹如何自動評價一幅圖像描述的品質，即基於共識 (consensus-based) 的評價方法。

假如每一幅圖像具有 50 個人工圖像描述，機器生成的圖像描述與這 50 個人工描述進行比較，得到選票多的機器圖像描述為最合適的描述。

這種共識方法要求比較候選描述句子與參考描述句子的相似性比較，所以需要對每一個描述句子定義一個向量描述。使用 n-gram 作為句子特徵描述候選句子和參考句子。

給定一幅圖像，假如有 50 個專家生成的參考句子（R1–R50）描述這幅圖像，有兩個需要評價的候選句子 C1 和 C2，從參考句子中任意選擇一個句子稱為 A，和 B 與 C 一起構成三元註釋。我們需要對 B 和 C 進行評價，看哪一個與句子 A 更相似。

共識方法會在 B 和 C 之中選出一個，並使用每一條參考句子與 A 一起形成三元標註。參考句子透過投票給出候選 B 或 C 與參考 A 的相似性評分，最後根據共識評分結果得出：究竟是 B 或 C 與參考 A 更相似。

CIDEr 自動評價一幅圖像 $I_i$ 的描述品質，使用共識方法評價一個候選圖像標註 $c_i$ 匹配一組專家生成圖像描述 $S_i=\{s_{i1}, s_{i2}, \ldots, s_{im}\}$ 。首先把候選句子和參考句子中所有的詞映射到它們的 stem 或 root 形式。例如，fishes、fishing、fished 映射為根詞 fish。每個句子都表示為一組 n-gram 形式，例如 unigram、bigram、trigram 和 4-gram。

共識測量候選句子中 n-gram 在參考句子出現的頻度。n-gram 經常出現在資料集中不同圖像中，應該給予低的加權權重，因為這些 n-gram 包含較少資訊。為了對這些 n-gram 進行加權，使用 TF-IDF 計算每個 n-gram 的權重。n-gram $\omega_k$ 在參考句子 $s_{ij}$ 中出現的次數表示為 $h_k(s_{ij})$ ，或在候選句子出現的次數 $h_k(c_i)$ 。計算每一個 n-gram $\omega_k$ 的 TF-IDF 權重 $g_k(s_{ij})$ ：

$g_k(s_{ij}) = \frac{h_k(s_{ij})}{\sum_{\omega_l\in\Omega} h_l(s_{ij})} \log \frac{|I|}{\sum_{I_p\in I}\min\left(1,\sum_q h_k(s_{pq})\right)}$

其中， $\Omega$ 是包含所有 n-gram 的詞庫， $I$ 是資料庫中所有圖像集合。第一項測量每一個 n-gram $\omega_k$ 的 TF，第二項使用 IDF 測量 $\omega_k$ 的稀缺性（rarity）。第一項 TF 會給經常出現在參考句子中的 n-gram 較高權重，第二項則用來降低這個權重。

IDF 會減少經常出現在資料集圖像中 n-gram 的權重；也就是透過降低常用詞（通常資訊量較少）的權重，來提高重點詞的權重。IDF 的計算概念是用資料集中的圖像總數 $|I|$ 去除以該詞（例如 n-gram $\omega_k$ ）出現過的圖像數量（document frequency）。

長度為 $n$ 的 n-gram 之評分，使用候選句子與參考句子的 cosine 相似度 取平均來計算，用以反映 precision 與 recall：

\mathrm{CIDEr}_n(c_i, S_i) = \frac{1}{m}\sum_{j} \frac{g^{n}(c_i)\cdot g^{n}(s_{ij})}{\left\lVert g^{n}(c_i)\right\rVert \left\lVert g^{n}(s_{ij})\right\rVert}

其中， $g^{n}(c_i)$ 是由 $g_k(c_i)$ 形成的向量，對應所有長度為 $n$ 的 n-gram； $g^{n}(s_{ij})$ 是由 $g_k(s_{ij})$ 形成的向量，對應所有長度為 $n$ 的 n-gram。使用較大的 $n$ 可捕捉更多語法特性與更豐富的語義特性。將不同長度 $n$ 的 n-gram 分數加總（加權）可得：

\mathrm{CIDEr}_m(c_i, S_i) = \sum_{n=1}^{N}\omega_n \mathrm{CIDEr}_n(c_i, S_i)

實驗發現，取 $N=4$ 、且 $\omega_n = 1/N$ 通常可以得到很好的結果。

資料集

於論文中學者們提出兩個新的資料集，分別為PASCAL-50S 和 ABSTRACT-50S，用以評估影像描述生成方法。兩個資料集中，每張影像分別有 50 個參考句子，影像數量分別為 1,000 張和 500 張。這些資料集旨在作為「測試」資料集，設計上用於支援共識式評估。

Ref:

CIDEr Metric || Image Captioning || Deep Learning

https://www.youtube.com/watch?v=3nZF99Z4CIc

Consensus-based Image Description Evaluation

https://www.youtube.com/watch?v=pVlcRbfCL6k

搜尋此網誌

第25個冬天

[論文筆記]CIDEr: Consensus-based Image Description Evaluation

留言

張貼留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理