發表文章

目前顯示的是有「論文筆記」標籤的文章

[論文筆記]ROUGE: A Package for Automatic Evaluation of Summaries

圖片
年份:2004年 論文連結: https://aclanthology.org/W04-1013/ 研究問題 ROUGE 是 Recall-Oriented Understudy for Gisting Evaluation 的縮寫。 它包含一系列衡量方法,可透過將自動產生的摘要與人類撰寫的理想摘要進行比較,來自動判定摘要的品質。這些衡量方法會計算自動摘要與人類理想摘要之間重疊單位的數量,它包含數種自動評估方法,用以 衡量摘要之間的相似性 。例如 n-gram、詞序列和詞對。 他前身參照了2003年Chin-Yew Lin 和Eduard Hovy兩位學者們的論文研究來改善,提出該新指標。 「Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics」 https://aclanthology.org/N03-1020.pdf 論文中,學者們提出了所謂 ROUGE方法,用於摘要的自動評估及其評估結果。 ROUGE 為 Recall-Oriented Understudy for Gisting Evaluation( 偏重召回率 的摘要評估替代方法)之縮寫。它包含數種自動評估方法,用以衡量摘要之間的相似性。 在論文分別介紹共4種方法 ROUGE-N(在第 2 節說明)、ROUGE-L(在第 3 節說明)、ROUGE-W(在第 4 節說明)、 ROUGE-S(在第 5 節說明) 第 6 節展示這些指標如何與使用 DUC 2001、2002 及 2003 資料的人類評分相關聯。 第 7 節總結本文並討論未來方向。 研究背景 傳統上 對摘要評估涉及人類對不同品質指標的判斷 ,例如連貫性、簡潔性、語法性、可讀性與內容(Mani, 2001)。 然而,即使像文件理解會議(DUC)(Over and Yen, 2003)中那樣,僅就少數語言品質問題與內容涵蓋度對大量摘要進行簡單的人工評估,也需要超過 3,000 小時的人力。 這非常昂貴且難以頻繁進行。因此,如何自動評估摘要在近年來引起了摘要研究社群的高度關注。 1.ROUGE-N: N-gram Co-Occurrence Statistics(N 元語法共現統計) 將模型生成的結果(候選摘要)和標準結果(參考摘要)按 N-gram 拆分後,計...

[論文筆記]BLEU: a Method for Automatic Evaluation of Machine Translation

圖片
年份:2002年 論文連結:https://aclanthology.org/P02-1040/ 研究問題 本篇論文探討學者們為了解決機器翻譯評估效率,提出了一個快速又低廉並且與語言無關,替代人工評估但又保留人為評估特性、每次運行邊際成本極低的方法與BLEU基準。 BLEU(Bilingual Evaluation Understudy)為一種用於自動評估機器翻譯品質的指標。由IBM研究員2002年所提出。主要根據N-gram匹配,核心思想是透過比較機器生成的翻譯與參考翻譯之間的n-gram(連續n個詞)匹配情況來度量翻譯品質。 BLEU的取值範圍坐落於0~1之間,越靠近1代表機器翻譯品質越好。 研究背景 為了讓機器翻譯技術能進步,更有效率低廉成本的評估方法於早期就屬於一個大問題。 根據更早期學者文獻(Hovy,1999; White and O’Connell, 1994)探討到,對於機器翻譯成效評估面向主要聚焦於翻譯的充分性(adequacy)、忠實度(fidelity)和流暢度(fluency)。 早期人類對於機器翻譯評估,絕大部分都採用人工評估方式。此類方式需要耗費數週甚至數月才能完成,時間成本極高也無法將人力重複疊代。 不利於研發「每天改模型就要回歸測」的需求。 如何衡量翻譯表現?學者們認為只要翻譯越接近專業的人類翻譯,就越好。為了評估機器翻譯品質,人們通常根據數值化度量標準,衡量其與一或多位人類參考翻譯接近程度。 因此學者們的機器翻譯評估系統主要涵蓋兩個要素 1.一個數值化的翻譯接近度度量指標 2.一個高品質的人類參考翻譯語料庫 通常給定一個原文句子,一定會有不只一句翻譯。這些翻譯在用詞或詞序上仍可能有所不同,就算用同樣詞彙。 比方以下翻譯範例,共有兩種候選翻譯句子。雖然看似表達語意差不多,但品質卻大相逕庭。 Candidate 1: It is a guide to action which ensures that the military always obeys the commands of the party.(這是一份行動指南,確保軍隊始終服從黨的指令。) Candidate 2: It is to insure the troops forever hearing the activity guidebook that party...