自然語言NER(Named Entity Recognition)_命名實體識別
https://www.geeksforgeeks.org/nlp/named-entity-recognition/ 命名實體識別(Named Entity Recognition, NER) 是一種從一段自然語言文本中找出相關實體,並標注出其位置以及類型的NLP技術。 是 NLP 中一項基本性的關鍵任務 是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎,被廣泛應用在自然語言處理領域。 命名實體分類 命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、專有名詞等。 一般學術領域 : NER 所涉及的命名實體一般包括 3 大類(實體類、時間類、數字類)和 7 小類(人名、地名、組織機構名、時間、日期、貨幣、百分比) 實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、會議名、產品名等)。另外,在一些應用場景下會給出特定領域內的實體,如書名、歌曲名、期刊名等。 NER的標註類型 在進行NER時候,通常需要對每個字做標註,中文為單一個字,英文則是用單詞,空格分隔。 標註的標籤分類通常如下表 類型 說明 B Begin ,代表實體片段的開始 I Intermediate ,代表實體片段的中間 M Middle ,代表實體片段的中間 E End ,代表實體片段的結束 S Single ,代表實體片段為單個字 O Other ,代表字符不為任何實體 套用上述表格規則就會如下 https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087 https://www.sciencedirect.com/science/article/pii/S0925231221016581 NER Tag Encoding分類 https://www.baeldung.com/cs/ner-nlp#bd-ner-tag-encoding 1.三位序列標註法(BIO) B 表示一個詞的詞首位置 I 表示「內部」(實體中非起始的詞) O 代表「外部」(不屬於任何實體的詞) 在 BIO 編碼中...