自然語言NER(Named Entity Recognition)_命名實體識別
https://www.geeksforgeeks.org/nlp/named-entity-recognition/
命名實體分類
命名實體識別(Named Entity Recognition, NER)
- 是一種從一段自然語言文本中找出相關實體,並標注出其位置以及類型的NLP技術。
- 是 NLP 中一項基本性的關鍵任務
- 是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎,被廣泛應用在自然語言處理領域。
命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、專有名詞等。
在進行NER時候,通常需要對每個字做標註,中文為單一個字,英文則是用單詞,空格分隔。
標註的標籤分類通常如下表
| 類型 | 說明 |
| B | Begin,代表實體片段的開始 |
| I | Intermediate,代表實體片段的中間 |
| M | Middle,代表實體片段的中間 |
| E | End,代表實體片段的結束 |
| S | Single,代表實體片段為單個字 |
| O | Other,代表字符不為任何實體 |
套用上述表格規則就會如下
https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087
https://www.sciencedirect.com/science/article/pii/S0925231221016581
NER Tag Encoding分類
1.三位序列標註法(BIO)
B 表示一個詞的詞首位置
I 表示「內部」(實體中非起始的詞)
O 代表「外部」(不屬於任何實體的詞)
在 BIO 編碼中,我們用前綴 B 標記起始點,並在後面接上一個底線再加上實體標籤。之後,對於從起始點到結束的所有後續詞,我們用前綴 I 標記,並在後面接上一個底線再加上實體標籤。不屬於任何實體的詞僅標記為 O。
比方,如果我們目標感興趣識別人名與地點,我們可能會得到如下的 NER 結果:
2.四位序列標註法(BIEO或BIOE)
這個方案與 BIO 模型相似,但多了一項:新增標籤類型 E,用來標記實體的結尾詞。
B表示開始
I表示內部
O表示非實體
E表示實體尾部
對於先前相同的句子,我們有以下 BIEO 標註:
這個標註法與 BIEO 唯一的不同在於有另一種標籤類型 S,用來標示單詞實體。
命名實體應用領域
較實用常見的情境就比如
1.事件檢測
地點、'時間、人物這三要素是事件基本組成,在構建事件摘要時,可凸顯出相關人物、地點、單位等。在事件搜索系統中,相關人物、時間、地點可以作為索引關鍵詞。
2.機器翻譯
Name Entity的翻譯(特別像是人名、專有名詞、機構名稱等等),時常會有某些特殊翻譯規則(例如要把中文人名翻譯到英文時,要使用名字的拼音做表示,有名在前姓氏在後的規則),另外普遍詞語要翻譯為對應英文單詞。因此準確的識別文本中的命名實體,對於提升機器翻譯效果是很有直接幫助的。(比方提取非結構化的商品屬性,幫助自動翻譯搜尋)
1.基於規則和詞典的方法
- 基於規則和詞典的方法是命名實體辨識中最早期使用的方法。
- 它們依賴於人工建立規則的系統,都會使用命名實體庫,而且會對每一個規則賦予權重。
缺點:
- 規則往往依賴於特定語言、領域和文本風格。
- 制定規則的過程耗時且難以涵蓋所有的語言狀況,特別容易產生錯誤,系統可移植性差
- 針對不同的系統,需要語言學專家重新撰寫規則。
2.基於統計機器學習的方法
方法主要包括如下(可能不只):
- 隱馬可夫模型(Hidden Markov Model, HMM)
- 最大熵模型(Maximum Entropy Model, MEM)
- 支援向量機(Support Vector Machine, SVM)
- 條件隨機場(Conditional Random Field, CRF)
在基於機器學習的方法中,NER 被當作序列標註(Sequence Labeling)問題。
利用大規模語料庫來學習出標註模型,進而對句子中的各個位置進行標註。
3.基於深度學習的方法
近年來,在基於神經網路的架構上加入注意力機制(Attention Mechanism)、圖神經網路(GNN)、遷移學習(Transfer Learning)、半監督學習(Semi-supervised Learning)等熱門研究技術,也是目前的主流研究方向。
有關於NER現況
當前並不是一個大熱門的研究課題,因為學術界部分學者認為這是一個已經解決的問題,但也有學者認為這個問題還沒有得到很好地解決,原因主要如下:
- 命名實體辨識只在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名)中取得了效果。
- 和其他資訊檢索(Information Retrieval)領域相比,實體命名評測語料較小,容易產生過擬合。
- 命名實體辨識更側重高召回率(Recall),但在資訊檢索領域,高準確率(Precision)更重要。
準確率 (Precision): 系統識別出的實體中,有多少比例是正確的?(強調「不要抓錯」)
召回率 (Recall): 文本中所有的實體,系統成功抓到了多少比例?(強調「不要漏抓」) - 通用的識別多種類型命名實體的系統性很差。
Ref
https://encord.com/blog/named-entity-recognition/
https://www.koncile.ai/en/ressources/named-entity-recognition-ner-guidehttps://www.semanticscholar.org/paper/Multi-channel-BiLSTM-CRF-Model-for-Emerging-Named-Lin-Xu/05fb1eea6381ccd21bde53495c7707546aa234c7/figure/0
A review of named entity recognition: from learning methods to modelling paradigms and tasks
https://link.springer.com/article/10.1007/s10462-025-11321-8
留言
張貼留言