自然語言NER(Named Entity Recognition)

自然語言NER(Named Entity Recognition)_命名實體識別

- 4月 19, 2026

https://www.geeksforgeeks.org/nlp/named-entity-recognition/

命名實體識別（Named Entity Recognition, NER）

是一種從一段自然語言文本中找出相關實體，並標注出其位置以及類型的NLP技術。
是 NLP 中一項基本性的關鍵任務
是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎，被廣泛應用在自然語言處理領域。

命名實體分類

命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體，通常包括人名、地名、機構名、日期時間、專有名詞等。

一般學術領域 : NER 所涉及的命名實體一般包括 3 大類（實體類、時間類、數字類）和 7 小類（人名、地名、組織機構名、時間、日期、貨幣、百分比）
實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可，一些系統還會給出專有名詞結果（比如縮寫、會議名、產品名等）。另外，在一些應用場景下會給出特定領域內的實體，如書名、歌曲名、期刊名等。

NER的標註類型

在進行NER時候，通常需要對每個字做標註，中文為單一個字，英文則是用單詞，空格分隔。

標註的標籤分類通常如下表

類型	說明
B	Begin，代表實體片段的開始
I	Intermediate，代表實體片段的中間
M	Middle，代表實體片段的中間
E	End，代表實體片段的結束
S	Single，代表實體片段為單個字
O	Other，代表字符不為任何實體

套用上述表格規則就會如下

https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087

https://www.sciencedirect.com/science/article/pii/S0925231221016581

NER Tag Encoding分類

https://www.baeldung.com/cs/ner-nlp#bd-ner-tag-encoding

1.三位序列標註法(BIO)

B 表示一個詞的詞首位置

I 表示「內部」（實體中非起始的詞）

O 代表「外部」（不屬於任何實體的詞）

在 BIO 編碼中，我們用前綴 B 標記起始點，並在後面接上一個底線再加上實體標籤。之後，對於從起始點到結束的所有後續詞，我們用前綴 I 標記，並在後面接上一個底線再加上實體標籤。不屬於任何實體的詞僅標記為 O。

比方，如果我們目標感興趣識別人名與地點，我們可能會得到如下的 NER 結果：

2.四位序列標註法(BIEO或BIOE)

這個方案與 BIO 模型相似，但多了一項：新增標籤類型 E，用來標記實體的結尾詞。

B表示開始

I表示內部

O表示非實體

E表示實體尾部

對於先前相同的句子，我們有以下 BIEO 標註：

3.五位序列標註法(BIESO)

這個標註法與 BIEO 唯一的不同在於有另一種標籤類型 S，用來標示單詞實體。

命名實體應用領域

較實用常見的情境就比如

1.事件檢測

地點、'時間、人物這三要素是事件基本組成，在構建事件摘要時，可凸顯出相關人物、地點、單位等。在事件搜索系統中，相關人物、時間、地點可以作為索引關鍵詞。

https://nlpcloud.com/nlp-named-entity-recognition-ner-api.html

2.機器翻譯

Name Entity的翻譯(特別像是人名、專有名詞、機構名稱等等)，時常會有某些特殊翻譯規則(例如要把中文人名翻譯到英文時，要使用名字的拼音做表示，有名在前姓氏在後的規則)，另外普遍詞語要翻譯為對應英文單詞。因此準確的識別文本中的命名實體，對於提升機器翻譯效果是很有直接幫助的。(比方提取非結構化的商品屬性，幫助自動翻譯搜尋)

NER的解決方案從古至今演進

可看到演變比較近期是開始普遍採用了深度學習的方案

1.基於規則和詞典的方法

基於規則和詞典的方法是命名實體辨識中最早期使用的方法。
它們依賴於人工建立規則的系統，都會使用命名實體庫，而且會對每一個規則賦予權重。

缺點:

規則往往依賴於特定語言、領域和文本風格。
制定規則的過程耗時且難以涵蓋所有的語言狀況，特別容易產生錯誤，系統可移植性差
針對不同的系統，需要語言學專家重新撰寫規則。

2.基於統計機器學習的方法

方法主要包括如下(可能不只)：

隱馬可夫模型（Hidden Markov Model, HMM）
最大熵模型（Maximum Entropy Model, MEM）
支援向量機（Support Vector Machine, SVM）
條件隨機場（Conditional Random Field, CRF）

在基於機器學習的方法中，NER 被當作序列標註（Sequence Labeling）問題。

利用大規模語料庫來學習出標註模型，進而對句子中的各個位置進行標註。

3.基於深度學習的方法

近年來，在基於神經網路的架構上加入注意力機制（Attention Mechanism）、圖神經網路（GNN）、遷移學習（Transfer Learning）、半監督學習（Semi-supervised Learning）等熱門研究技術，也是目前的主流研究方向。

Multi-channel BiLSTM-CRF Model for Emerging Named Entity Recognition in Social Media

Neural Architectures for Named Entity Recognition
https://arxiv.org/abs/1603.01360

有關於NER現況

當前並不是一個大熱門的研究課題，因為學術界部分學者認為這是一個已經解決的問題，但也有學者認為這個問題還沒有得到很好地解決，原因主要如下：

命名實體辨識只在有限的文本類型（主要是新聞語料中）和實體類別（主要是人名、地名）中取得了效果。
和其他資訊檢索（Information Retrieval）領域相比，實體命名評測語料較小，容易產生過擬合。
命名實體辨識更側重高召回率（Recall），但在資訊檢索領域，高準確率（Precision）更重要。

準確率 (Precision)：系統識別出的實體中，有多少比例是正確的？（強調「不要抓錯」）
召回率 (Recall)：文本中所有的實體，系統成功抓到了多少比例？（強調「不要漏抓」）
通用的識別多種類型命名實體的系統性很差。

Ref

https://encord.com/blog/named-entity-recognition/

https://www.koncile.ai/en/ressources/named-entity-recognition-ner-guide
https://www.semanticscholar.org/paper/Multi-channel-BiLSTM-CRF-Model-for-Emerging-Named-Lin-Xu/05fb1eea6381ccd21bde53495c7707546aa234c7/figure/0

A review of named entity recognition: from learning methods to modelling paradigms and tasks

https://link.springer.com/article/10.1007/s10462-025-11321-8

搜尋此網誌

第25個冬天

自然語言NER(Named Entity Recognition)_命名實體識別

留言

張貼留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理