[論文筆記]BLEU: a Method for Automatic Evaluation of Machine Translation

年份:2002年
論文連結:https://aclanthology.org/P02-1040/

研究問題:
本篇論文探討學者們為了解決機器翻譯評估效率,提出了一個快速又低廉並且與語言無關,替代人工評估但又保留人為評估特性、每次運行邊際成本極低的方法與BLEU基準。

研究背景:
為了讓機器翻譯技術能進步,更有效率低廉成本的評估方法於早期就屬於一個大問題。
根據更早期學者文獻(Hovy,1999; White and O’Connell, 1994)探討到,對於機器翻譯成效評估面向主要聚焦於翻譯的充分性(adequacy)、忠實度(fidelity)和流暢度(fluency)。

早期人類對於機器翻譯評估,絕大部分都採用人工評估方式。此類方式需要耗費數週甚至數月才能完成,時間成本極高也無法將人力重複疊代。

如何衡量翻譯表現?學者們認為只要翻譯越接近專業的人類翻譯,就越好。為了評估機器翻譯品質,人們通常根據數值化度量標準,衡量其與一或多位人類參考翻譯接近程度。

因此學者們的機器翻譯評估系統主要涵蓋兩個要素
1.一個數值化的翻譯接近度度量指標
2.一個高品質的人類參考翻譯語料庫

BLEU指標

通常給定一個原文句子,一定會有不只一句翻譯。這些翻譯在用詞或詞序上仍可能有所不同,就算用同樣詞彙。
比方以下翻譯範例,共有兩種候選翻譯句子。雖然看似表達語意差不多,但品質卻大相逕庭。
Candidate 1: It is a guide to action which ensures that the military always obeys the commands of the party.(這是一份行動指南,確保軍隊始終服從黨的指令。)
Candidate 2: It is to insure the troops forever hearing the activity guidebook that party direct.
(這是為了保證部隊永遠聽從黨所指導的活動手冊。)

參考專業譯文句子共有三句如下:
Reference 1: It is a guide to action that ensures that the military will forever heed Party commands.
Reference 2: It is the guiding principle which guarantees the military forces always being under the command of the Party.
Reference 3: It is the practical guide for the army always to heed the directions of the party.

可觀察到候選1譯文和三句參考專業譯文,共用到的詞語、片語較多。
N-gram精確度評估(較早期不足夠好方式)
1-gram (unigram)帶入
候選1譯文(總計18個單字,17個跟三句參考譯文資料庫匹配到)->17/18=0.94
候選2譯文(總計14個單字,8個跟三句參考譯文資料庫匹配到)->8/14=0.57

留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理