自然語言NER(Named Entity Recognition)_命名實體識別

https://www.geeksforgeeks.org/nlp/named-entity-recognition/
命名實體識別(Named Entity Recognition, NER)
  • 是一種從一段自然語言文本中找出相關實體,並標注出其位置以及類型的NLP技術。
  • 是 NLP 中一項基本性的關鍵任務
  • 是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎,被廣泛應用在自然語言處理領域。

命名實體分類
命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、專有名詞等。
  • 一般學術領域 : NER 所涉及的命名實體一般包括 3 大類(實體類、時間類、數字類)和 7 小類(人名、地名、組織機構名、時間、日期、貨幣、百分比)


  • 實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、會議名、產品名等)。另外,在一些應用場景下會給出特定領域內的實體,如書名、歌曲名、期刊名等。
在進行NER時候,通常需要對每個字做標註,中文為單一個字,英文則是用單詞,空格分隔。
標註的標籤分類通常如下表

類型說明
BBegin,代表實體片段的開始
IIntermediate,代表實體片段的中間
MMiddle,代表實體片段的中間
EEnd,代表實體片段的結束
SSingle,代表實體片段為單個字
OOther,代表字符不為任何實體

套用上述表格規則就會如下

https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087





https://www.sciencedirect.com/science/article/pii/S0925231221016581

NER Tag Encoding分類

1.三位序列標註法(BIO)
B 表示一個詞的詞首位置
I  表示「內部」(實體中非起始的詞)
O 代表「外部」(不屬於任何實體的詞)

在 BIO 編碼中,我們用前綴 B 標記起始點,並在後面接上一個底線再加上實體標籤。之後,對於從起始點到結束的所有後續詞,我們用前綴 I 標記,並在後面接上一個底線再加上實體標籤。不屬於任何實體的詞僅標記為 O。

比方,如果我們目標感興趣識別人名與地點,我們可能會得到如下的 NER 結果:




2.四位序列標註法(BIEO或BIOE)
這個方案與 BIO 模型相似,但多了一項:新增標籤類型 E,用來標記實體的結尾詞。
B表示開始
I表示內部
O表示非實體
E表示實體尾部

對於先前相同的句子,我們有以下 BIEO 標註:

3.五位序列標註法(BIESO)
這個標註法與 BIEO 唯一的不同在於有另一種標籤類型 S,用來標示單詞實體。





命名實體應用領域
較實用常見的情境就比如

1.事件檢測
地點、'時間、人物這三要素是事件基本組成,在構建事件摘要時,可凸顯出相關人物、地點、單位等。在事件搜索系統中,相關人物、時間、地點可以作為索引關鍵詞。
2.機器翻譯
Name Entity的翻譯(特別像是人名、專有名詞、機構名稱等等),時常會有某些特殊翻譯規則(例如要把中文人名翻譯到英文時,要使用名字的拼音做表示,有名在前姓氏在後的規則),另外普遍詞語要翻譯為對應英文單詞。因此準確的識別文本中的命名實體,對於提升機器翻譯效果是很有直接幫助的。(比方提取非結構化的商品屬性,幫助自動翻譯搜尋)



NER的解決方案從古至今演進
可看到演變比較近期是開始普遍採用了深度學習的方案

1.基於規則和詞典的方法
  • 基於規則和詞典的方法是命名實體辨識中最早期使用的方法。
  • 它們依賴於人工建立規則的系統,都會使用命名實體庫,而且會對每一個規則賦予權重。

缺點:
  • 規則往往依賴於特定語言、領域和文本風格。
  • 制定規則的過程耗時且難以涵蓋所有的語言狀況,特別容易產生錯誤,系統可移植性差
  • 針對不同的系統,需要語言學專家重新撰寫規則。

2.基於統計機器學習的方法
方法主要包括如下(可能不只): 
  • 隱馬可夫模型(Hidden Markov Model, HMM)
  • 最大熵模型(Maximum Entropy Model, MEM)
  • 支援向量機(Support Vector Machine, SVM)
  • 條件隨機場(Conditional Random Field, CRF)
在基於機器學習的方法中,NER 被當作序列標註(Sequence Labeling)問題。
利用大規模語料庫來學習出標註模型,進而對句子中的各個位置進行標註。


3.基於深度學習的方法
近年來,在基於神經網路的架構上加入注意力機制(Attention Mechanism)、圖神經網路(GNN)、遷移學習(Transfer Learning)、半監督學習(Semi-supervised Learning)等熱門研究技術,也是目前的主流研究方向。
Multi-channel BiLSTM-CRF Model for Emerging Named Entity Recognition in Social Media

Neural Architectures for Named Entity Recognition
https://arxiv.org/abs/1603.01360


有關於NER現況
當前並不是一個大熱門的研究課題,因為學術界部分學者認為這是一個已經解決的問題,但也有學者認為這個問題還沒有得到很好地解決,原因主要如下:
  1. 命名實體辨識只在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名)中取得了效果。

  2. 和其他資訊檢索(Information Retrieval)領域相比,實體命名評測語料較小,容易產生過擬合。

  3. 命名實體辨識更側重高召回率(Recall),但在資訊檢索領域,高準確率(Precision)更重要。

    準確率 (Precision): 系統識別出的實體中,有多少比例是正確的?(強調「不要抓錯」)
    召回率 (Recall): 文本中所有的實體,系統成功抓到了多少比例?(強調「不要漏抓」)

  4. 通用的識別多種類型命名實體的系統性很差。




Ref
https://encord.com/blog/named-entity-recognition/
https://www.koncile.ai/en/ressources/named-entity-recognition-ner-guide
https://www.semanticscholar.org/paper/Multi-channel-BiLSTM-CRF-Model-for-Emerging-Named-Lin-Xu/05fb1eea6381ccd21bde53495c7707546aa234c7/figure/0
A review of named entity recognition: from learning methods to modelling paradigms and tasks
https://link.springer.com/article/10.1007/s10462-025-11321-8

留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理