[論文筆記]BLEU: a Method for Automatic Evaluation of Machine Translation

- 12月 26, 2025

年份:2002年

論文連結:https://aclanthology.org/P02-1040/

研究問題

本篇論文探討學者們為了解決機器翻譯評估效率，提出了一個快速又低廉並且與語言無關，替代人工評估但又保留人為評估特性、每次運行邊際成本極低的方法與BLEU基準。

BLEU(Bilingual Evaluation Understudy)為一種用於自動評估機器翻譯品質的指標。由IBM研究員2002年所提出。主要根據N-gram匹配，核心思想是透過比較機器生成的翻譯與參考翻譯之間的n-gram(連續n個詞)匹配情況來度量翻譯品質。

BLEU的取值範圍坐落於0~1之間，越靠近1代表機器翻譯品質越好。

研究背景

為了讓機器翻譯技術能進步，更有效率低廉成本的評估方法於早期就屬於一個大問題。

根據更早期學者文獻(Hovy,1999; White and O’Connell, 1994)探討到，對於機器翻譯成效評估面向主要聚焦於翻譯的充分性(adequacy)、忠實度(fidelity)和流暢度(fluency)。

早期人類對於機器翻譯評估，絕大部分都採用人工評估方式。此類方式需要耗費數週甚至數月才能完成，時間成本極高也無法將人力重複疊代。不利於研發「每天改模型就要回歸測」的需求。

如何衡量翻譯表現?學者們認為只要翻譯越接近專業的人類翻譯，就越好。為了評估機器翻譯品質，人們通常根據數值化度量標準，衡量其與一或多位人類參考翻譯接近程度。

因此學者們的機器翻譯評估系統主要涵蓋兩個要素

1.一個數值化的翻譯接近度度量指標

2.一個高品質的人類參考翻譯語料庫

通常給定一個原文句子，一定會有不只一句翻譯。這些翻譯在用詞或詞序上仍可能有所不同，就算用同樣詞彙。

比方以下翻譯範例，共有兩種候選翻譯句子。雖然看似表達語意差不多，但品質卻大相逕庭。

Candidate 1: It is a guide to action which ensures that the military always obeys the commands of the party.(這是一份行動指南，確保軍隊始終服從黨的指令。)

Candidate 2: It is to insure the troops forever hearing the activity guidebook that party direct.

(這是為了保證部隊永遠聽從黨所指導的活動手冊。)

參考專業譯文句子共有三句如下:

Reference 1: It is a guide to action that ensures that the military will forever heed Party commands.

Reference 2: It is the guiding principle which guarantees the military forces always being under the command of the Party.

Reference 3: It is the practical guide for the army always to heed the directions of the party.

N-gram精確度評估(較早期不足夠好方式)

可觀察到候選1譯文和三句參考專業譯文，共用到的詞語、片語較多。這邊採用N-gram來解釋

當用1-gram (unigram)帶入

候選1譯文(總計18個單字,17個跟三句參考譯文資料庫匹配到)->17/18=0.94

候選2譯文(總計14個單字,8個跟三句參考譯文資料庫匹配到)->8/14=0.57

當然可以用N-gram(延伸到2、3甚至4)

底下這邊就是4 unigram (word) 匹配案例

而當MT產生的翻譯文本命中特定單詞重複性高，就會造成精確度極高甚至到1的誤判。
因為事實上翻譯的品質很差。

論文中採取了Clipped Count(截斷計數)修正計算手法，原本Precision計算會根據只要有單字曾出現在Reference都會被納入計算。

一個極端例子如論文假設的某Reference只有一個the ，但是Candidate有7個the 都命中，容易被過度計算。即便準確率高也不代表是翻譯品質好的譯文。因此Clipped Count改良了Precision，會考慮到Reference中「實際出現的次數」，論文中的公式如下:

以下範例來看，機器翻譯候選譯文總共出現了5個six，參考譯文則只有出現1次。

因此論文中進行了修正版本的精確度計算，只取參考譯文中出現最大次數為上限不能夠重複去計算。

當然BLEU採用的N-gram不只上述講的單一種缺失，其對於前後文詞彙理解順序性也很差。

比方下面翻譯順序跟參考譯文相較之下，句法涵義順序接近失真，但precision仍然有高達4/5。

因此改良版演進至後期就變成是採用類似sliding window模式N-gram做機率計算，比方每4個為一組去跟參考譯文做匹配。

做法是做1-gram、2-gram、3-gram到4-gram每個去求解P1~P4機率之後連乘開N次根號。

此外還有引入了所謂的短句懲罰因子BP (Sentence brevity penalty)

c表示機器翻譯文本的句子長度，r代表參考譯文句子長度。

BLEU計算也算是一種綜合考量到Precision以及Recall兩者方法。

BP本身是一種Recall的度量，exp(....)是一種Precision表示，會懲罰過短語句結果。

總結-BLEU評分三步驟

Step1.關鍵字檢查

去查看機器翻譯出來譯文有多少比例跟參考譯文相同，對齊到愈多基本分就愈高。

Step2.重複懲罰

是否為了提高分數而過度重複用某個詞，作弊行為抓到要扣分。

Step3.長度檢查

翻譯長度跟參考範本相比是否過短?

Ref:

C5W3L06 Bleu Score (Optional)

https://www.youtube.com/watch?v=DejHQYAGb7Q

BLEU SCORE | Automatically calculate the machine translation task | NLP

https://www.youtube.com/watch?v=kKVVI5y9SGw

#bleu Score Explained: AI Text Evaluation & Python Tutorial . What is BLEU metric? #genai

https://www.youtube.com/watch?v=6_Vsu3gL7Kc

What is the BLEU metric?

https://www.youtube.com/watch?v=M05L1DhFqcw

C5W3L06 Bleu Score (Optional)

https://www.youtube.com/watch?v=DejHQYAGb7Q

BLEU Score Explained

https://youtu.be/25kutmqou6o

Microsoft Translator Hub - Discussion of BLEU Score

https://www.youtube.com/watch?v=-UqDljMymMg

搜尋此網誌

第25個冬天

[論文筆記]BLEU: a Method for Automatic Evaluation of Machine Translation

留言

張貼留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理