[論文筆記]ROUGE: A Package for Automatic Evaluation of Summaries
年份:2004年 論文連結: https://aclanthology.org/W04-1013/ 研究問題 ROUGE 是 Recall-Oriented Understudy for Gisting Evaluation 的縮寫。 它包含一系列衡量方法,可透過將自動產生的摘要與人類撰寫的理想摘要進行比較,來自動判定摘要的品質。這些衡量方法會計算自動摘要與人類理想摘要之間重疊單位的數量,它包含數種自動評估方法,用以 衡量摘要之間的相似性 。例如 n-gram、詞序列和詞對。 他前身參照了2003年Chin-Yew Lin 和Eduard Hovy兩位學者們的論文研究來改善,提出該新指標。 「Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics」 https://aclanthology.org/N03-1020.pdf 論文中,學者們提出了所謂 ROUGE方法,用於摘要的自動評估及其評估結果。 ROUGE 為 Recall-Oriented Understudy for Gisting Evaluation( 偏重召回率 的摘要評估替代方法)之縮寫。它包含數種自動評估方法,用以衡量摘要之間的相似性。 在論文分別介紹共4種方法 ROUGE-N(在第 2 節說明)、ROUGE-L(在第 3 節說明)、ROUGE-W(在第 4 節說明)、 ROUGE-S(在第 5 節說明) 第 6 節展示這些指標如何與使用 DUC 2001、2002 及 2003 資料的人類評分相關聯。 第 7 節總結本文並討論未來方向。 研究背景 傳統上 對摘要評估涉及人類對不同品質指標的判斷 ,例如連貫性、簡潔性、語法性、可讀性與內容(Mani, 2001)。 然而,即使像文件理解會議(DUC)(Over and Yen, 2003)中那樣,僅就少數語言品質問題與內容涵蓋度對大量摘要進行簡單的人工評估,也需要超過 3,000 小時的人力。 這非常昂貴且難以頻繁進行。因此,如何自動評估摘要在近年來引起了摘要研究社群的高度關注。 1.ROUGE-N: N-gram Co-Occurrence Statistics(N 元語法共現統計) 將模型生成的結果(候選摘要)和標準結果(參考摘要)按 N-gram 拆分後,計...