[論文筆記]CIDEr: Consensus-based Image Description Evaluation
https://www.youtube.com/watch?v=pVlcRbfCL6k 年份:2015年 期刊:CVPR 論文連結: https://arxiv.org/abs/1411.5726 研究問題 當使用自動技術對一幅圖像描述進行評價時,應該與專家的圖像描述一致。常用的一些句子相似度評價度量如基於 BLEU 的機器翻譯評分指標。然而這些方法的結果與人的評價相差很遠。現在介紹的 CIDEr 評估指標則是測量一個句子與一組人為生成真實句子的相似性,可以考慮語法、重點以及精度全部考慮在內。 研究背景 在自然語言處理中,給定一幅圖像,機器自動生成圖像描述具有廣泛的應用。但是如何評價一個圖像機器生成的描述是非常具有挑戰性。現在介紹如何自動評價一幅圖像描述的品質,即基於共識 (consensus-based) 的評價方法。 假如每一幅圖像具有 50 個人工圖像描述,機器生成的圖像描述與這 50 個人工描述進行比較,得到選票多的機器圖像描述為最合適的描述。 這種共識方法要求比較候選描述句子與參考描述句子的相似性比較,所以需要對每一個描述句子定義一個向量描述。使用 n-gram 作為句子特徵描述候選句子和參考句子。 給定一幅圖像,假如有 50 個專家生成的參考句子(R1–R50)描述這幅圖像,有兩個需要評價的候選句子 C1 和 C2, 從參考句子中任意選擇一個句子稱為 A,和 B 與 C 一起構成三元註釋 。我們需要對 B 和 C 進行評價,看哪一個與句子 A 更相似。 共識方法會在 B 和 C 之中選出一個,並使用每一條參考句子與 A 一起形成三元標註。參考句子透過投票給出候選 B 或 C 與參考 A 的相似性評分,最後根據共識評分結果得出:究竟是 B 或 C 與參考 A 更相似。 CIDEr 自動評價一幅圖像 I i I_i I i 的描述品質, 使用共識方法評價一個候選圖像標註 c i c_i c i 匹配一組專家生成圖像描述 S i = { s i 1 , s i 2 , … , s i m } S_i=\{s_{i1}, s_{i2}, \ldots, s_{im}\} 。 首先把候選句子和參考句子中所有的詞映射到它們的 stem 或 root 形式。例如,fishes、fishing、fished 映射為根詞 fish。每個句子都表示為...