[論文筆記]ROUGE: A Package for Automatic Evaluation of Summaries

年份:2004年

研究問題
ROUGE 是 Recall-Oriented Understudy for Gisting Evaluation 的縮寫。
它包含一系列衡量方法,可透過將自動產生的摘要與人類撰寫的理想摘要進行比較,來自動判定摘要的品質。這些衡量方法會計算自動摘要與人類理想摘要之間重疊單位的數量,它包含數種自動評估方法,用以衡量摘要之間的相似性。例如 n-gram、詞序列和詞對。

他前身參照了2003年Chin-Yew Lin 和Eduard Hovy兩位學者們的論文研究來改善,提出該新指標。
「Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics」

論文中,學者們提出了所謂 ROUGE方法,用於摘要的自動評估及其評估結果。
ROUGE 為 Recall-Oriented Understudy for Gisting Evaluation(偏重召回率的摘要評估替代方法)之縮寫。它包含數種自動評估方法,用以衡量摘要之間的相似性。
在論文分別介紹共4種方法
ROUGE-N(在第 2 節說明)、ROUGE-L(在第 3 節說明)、ROUGE-W(在第 4 節說明)、
ROUGE-S(在第 5 節說明)
第 6 節展示這些指標如何與使用 DUC 2001、2002 及 2003 資料的人類評分相關聯。
第 7 節總結本文並討論未來方向。

研究背景
傳統上對摘要評估涉及人類對不同品質指標的判斷,例如連貫性、簡潔性、語法性、可讀性與內容(Mani, 2001)。
然而,即使像文件理解會議(DUC)(Over and Yen, 2003)中那樣,僅就少數語言品質問題與內容涵蓋度對大量摘要進行簡單的人工評估,也需要超過 3,000 小時的人力。
這非常昂貴且難以頻繁進行。因此,如何自動評估摘要在近年來引起了摘要研究社群的高度關注。

1.ROUGE-N: N-gram Co-Occurrence Statistics(N 元語法共現統計)
將模型生成的結果(候選摘要)和標準結果(參考摘要)按 N-gram 拆分後,計算召回率。
ROUGE-N就是指N 個詞一組和原文比較,類似之前BLUE機制。
舉例
模型生成候選摘要
the cat was found under the bed
參考摘要
the cat was under the bed

ROUGE-1,就是一個詞一個詞地和參考摘要原文比較
Recall = 候選摘要重疊字總長/參考摘要總長 = 6/6=1.0
Precision=候選摘要重疊字總長/候選摘要總長=6/7=0.86

ROUGE-2,就是兩個詞一組和參考摘要原文比較
參考摘要bi-gram
the cat, cat was, was under, under the, the bed→ 5 個
模型生成候選摘要bi-gram
the cat, cat was, was found, found under, under the, the bed→ 6 個
Recall=4/5=0.8,重疊 (Overlap): the cat, cat was, under the, the bed → 4 個
Precision=4/6=0.67



2.ROUGE-L (L 代表:Longest Common Subsequence ,LCS)
2-1.Sentence-Level LCS(單句對單句評估)
  • Rouge-L 的計算利用了最長公共子序列,使用 LCS衡量字詞的最長匹配序列。優點是它不要求連續匹配,而是要求反映句子層級詞序的序內匹配。
  • 由於它自動包含序內最長的共同 n-gram,因此也不需要預先定義 n-gram 的長度。
  • 為了彌補像 ROUGE-N 那種純召回指標的缺點,ROUGE-L 計算結合精確率與召回率的加權調和平均(F-measure)。
假設 X 為參考摘要句而 Y 為候選摘要句,m 表示 X 的長度,n 表示 Y 的長度。
LCS(X,Y)就表示X 和 Y 的最長公共子序列,如下所示:
公式符號
$$ R_{lcs} = \frac{LCS(X, Y)}{m} $$
$$ P_{lcs} = \frac{LCS(X, Y)}{n} $$
$$ F_{lcs} = \frac{(1 + \beta^2) R_{lcs} P_{lcs}}{R_{lcs} + \beta^2 P_{lcs}} $$
  • $X$:參考摘要(Reference summary sequence)。

  • $Y$:待測摘要(Candidate summary sequence)。

  • $m$:參考摘要的長度(總字數)。

  • $n$:待測摘要的長度(總字數)。

  • $LCS(X, Y)$$X$$Y$ 的最長共同子序列長度。

  • $\beta$:用於調節召回率與精確率權重的參數(通常設為 $R_{lcs} / P_{lcs}$ 的比例)。

舉例:
模型生成候選摘要→ 9 個
To make people trustworthy, you need to trust them
參考摘要→ 10 個
The way to make people trustworthy is to trust them
參考摘要 (Reference, $X$):[the, way, to, make, people, trustworthy, is, to, trust, them]長度 $m = 10$
候選摘要 (Candidate, $Y$):[to, make, people, trustworthy, you, need, to, trust, them]長度 $n = 9$

找出最長共同子序列 (LCS),就是在兩句話中按順序出現的最長單字組合
(中間可以跳過不匹配的字)
  1. to (Ref 第 3 個字 / Can 第 1 個字)
  2. make (Ref 第 4 個字 / Can 第 2 個字)
  3. people (Ref 第 5 個字 / Can 第 3 個字)
  4. trustworthy (Ref 第 6 個字 / Can 第 4 個字)
  5. to (Ref 第 8 個字 / Can 第 7 個字)
  6. trust (Ref 第 9 個字 / Can 第 8 個字)
  7. them (Ref 第 10 個字 / Can 第 9 個字)
LCS 長度 = 7
計算 ROUGE-L 指標

召回率 Recall ($R_{lcs}$)

衡量參考摘要中有多少內容被模型抓到了。

$$ R_{lcs} = \frac{LCS(X, Y)}{m} = \frac{7}{10} = 0.7 $$

精確率 Precision ($P_{lcs}$)

衡量模型生成的內容中有多少是正確的(出現在參考摘要中)。

$$ P_{lcs} = \frac{LCS(X, Y)}{n} = \frac{7}{9} \approx 0.778 $$

F-衡量值 F-Measure ($F_{lcs}$)

通常取兩者的調和平均數(假設 $\beta = 1$)。

$$ F_{lcs} = \frac{2 \times R_{lcs} \times P_{lcs}}{R_{lcs} + P_{lcs}} = \frac{2 \times 0.7 \times 0.778}{0.7 + 0.778} \approx 0.737 $$
這裡就明顯體現出與 N-gram 的差異,ROUGE-N(如 ROUGE-1, ROUGE-2)要求單字必須連續匹配。而 ROUGE-L 只要「相對順序」對了就能計分,這能更靈活地捕捉句子結構的相似性。


2-2.Summary-Level LCS(多句對多句的評估)
Sentence-Level LCS只能計算兩條句子之間的相似度。但現實中的摘要通常由多個句子組成。
若模型生成的摘要順序與參考摘要不同,又或者一個長句被拆成了兩個短句,單純的句子對句子匹配(Sentence-level)會被扣很多分數。
因此衍生出Summary-Level LCS ,並引入了 Union LCS(聯集 LCS) 的概念。

對於參考摘要中的每一句 $r_i$,我們不只跟候選摘要的一句比,而是跟候選摘要中的所有句子 $c_j$ 比對,並取其 LCS 單字的「聯集」。

例子:
參考句 $r_i$:[A, B, C, D]
候選句 $c_1$:[A, B, E] 
$\rightarrow$ LCS 為 {A, B}候選句 $c_2$:[A, C, F] 
$\rightarrow$ LCS 為 {A, C}Union LCS:{A, B, C},長度為 3。
(注意:不是單純相加,重複的字只計一次)

公式符號

Summary-Level LCS (ROUGE-L) 計算公式

假設參考摘要 $R$ 有 $u$ 個句子,總長度為 $m$;候選摘要 $C$ 有 $v$ 個句子,總長度為 $n$:

1. 召回率 Recall ($R_{lcs}$)

$$ R_{lcs} = \frac{\sum_{i=1}^{u} LCS_{\cup}(r_i, C)}{m} $$

2. 精確率 Precision ($P_{lcs}$)

$$ P_{lcs} = \frac{\sum_{i=1}^{u} LCS_{\cup}(r_i, C)}{n} $$

3. F-衡量值 F-Measure ($F_{lcs}$)

$$ F_{lcs} = \frac{(1 + \beta^2) R_{lcs} P_{lcs}}{R_{lcs} + \beta^2 P_{lcs}} $$

符號說明:

  • $LCS_{\cup}(r_i, C)$:參考摘要中第 $i$ 個句子 $r_i$ 與整個候選摘要 $C$ 之間的最長共同子序列聯集長度。
  • $m, n$:分別為參考摘要與候選摘要的總單字數。
  • $\beta$:通常設為 1,代表 Recall 與 Precision 同等重要。


Ref:
ROUGE and BLEU scores for NLP model evaluation
An intro to ROUGE, and how to use it to evaluate summaries
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
NLP 評估指標之 ROUGE

留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理