發表文章

目前顯示的是有「自然語言」標籤的文章

自然語言NER(Named Entity Recognition)_命名實體識別

圖片
https://www.geeksforgeeks.org/nlp/named-entity-recognition/ 命名實體識別(Named Entity Recognition, NER) 是一種從一段自然語言文本中找出相關實體,並標注出其位置以及類型的NLP技術。 是 NLP 中一項基本性的關鍵任務 是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎,被廣泛應用在自然語言處理領域。 命名實體分類 命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、專有名詞等。 一般學術領域 : NER 所涉及的命名實體一般包括 3 大類(實體類、時間類、數字類)和 7 小類(人名、地名、組織機構名、時間、日期、貨幣、百分比) 實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、會議名、產品名等)。另外,在一些應用場景下會給出特定領域內的實體,如書名、歌曲名、期刊名等。 NER的標註類型 在進行NER時候,通常需要對每個字做標註,中文為單一個字,英文則是用單詞,空格分隔。 標註的標籤分類通常如下表 類型 說明 B Begin ,代表實體片段的開始 I Intermediate ,代表實體片段的中間 M Middle ,代表實體片段的中間 E End ,代表實體片段的結束 S Single ,代表實體片段為單個字 O Other ,代表字符不為任何實體 套用上述表格規則就會如下 https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087 https://www.sciencedirect.com/science/article/pii/S0925231221016581 NER Tag Encoding分類 https://www.baeldung.com/cs/ner-nlp#bd-ner-tag-encoding 1.三位序列標註法(BIO) B 表示一個詞的詞首位置 I  表示「內部」(實體中非起始的詞) O 代表「外部」(不屬於任何實體的詞) 在 BIO 編碼中...

藉由Tensorflow&Keras_實作透過MLP對IMDb影評情緒分析_產生神經網路架構圖

圖片
  練習程式碼

[NLP]如何使用SpaCy語法依存器針對英文語句去建構關係樹

圖片
程式範例 主幹 chef → 主詞 prepared → 核心動詞 meal → 受詞 也就是: The chef prepared a meal. 修飾資訊 The 修飾 chef a 修飾 meal delicious 修飾 meal for the guests 補充這頓 meal 的對象/用途 第一段表格表頭定義 Word:目前這個詞 Dependency:它的依存關係類型 Head:它依附到哪個核心詞 Relation:它底下直接帶哪些子節點 第一句:The det chef [] The 是限定詞(det,determiner) 代表The 是用來限定 chef 的冠詞 第二句:chef nsubj prepared ['The'] chef 是 nsubj,也就是名詞主詞 它依附到 prepared 它的子節點有 The chef 是動詞 prepared 的主詞,而 The 又是 chef 的修飾詞。 第三句:prepared ROOT prepared ['chef', 'meal', '.'] prepared 是整句的 ROOT,代表這句話的核心動作是 prepared 它的子節點有: chef meal . 第四句:a det meal [] a 是限定詞 修飾 meal a 是 meal 的冠詞 第五句:delicious amod meal [] delicious 是 amod 也就是形容詞修飾名詞 它修飾 meal 第六句:meal dobj prepared ['a', 'delicious', 'for'] meal 是 dobj 也就是直接受詞 , prepared 的受詞是 meal 它依附到 prepared 它底下還有三個子節點: a delicious for 第七句:for prep meal ['guests'] for 是介系詞(prep) 它依附到 meal 子節點是 guests spaCy 這次的分析是把 for 掛在 meal 底下,也就是偏向把它看成: a delicious meal for the guests 第八句:the det guests [] the 是冠詞 修...

Python epub電子書檔案解析_中文斷句處理_以國家科幻叢書十一_機器人風波(The Soul of the Robot)為例

圖片
  此次實驗採用 好讀平台 上面的 書名:機器人風波(The Soul of the Robot) 作者: 巴靈頓・貝雷(Barrington J.Bayley) 譯者:王凱竹 https://www.haodoo.net/?M=Share&P=1010490641#gsc.tab=0 作者簡介: 巴靈頓.貝雷 出生於英國伯明翰,一九六零年代科幻小說新浪潮運動在英國的推手之一。 寫作風格憂鬱、陰沉,影響後來多名英國科幻作家。 這個平台的定位有點類似台灣版本的 日本青空文庫 青空文庫是蒐集了日本國內著作權已經進入公有領域的文學作品的數位圖書館。 程式碼範例ver1. """ 【免責聲明 / Disclaimer】 1. 本程式僅供技術研究與學術交流使用,不保證程式碼完全無誤或適用於特定商業目的。 This code is for technical research and academic exchange only. There is no guarantee of accuracy or fitness for any particular purpose. 2. 使用者應確保所處理之 EPUB 檔案具備合法授權。本程式作者不承擔因非法使用版權 作品(如未經授權之重製、散佈或進行機器學習訓練)所產生之法律責任。 Users are responsible for ensuring they have legal authorization for the EPUB files. The author assumes no liability for legal issues arising from unauthorized use of copyrighted works (e.g., reproduction, distribution, or ML training). 3. 請遵守相關著作權法規。針對已受版權保護之作品,建議僅在「合理使用」範圍內操作。 Please comply with copyright laws. For protected works, operations should be limited to the sco...

Windows作業系統環境下安裝Ruby_Wikipedia語料庫截取純文本wp2txt_WikiExtractor_gensim解析讀取wiki資料

圖片
Ruby預設環境會有類似node.js的npm install的cli  (定位就跟微軟開發者在用的nuget差不多、或python的pip install....) 叫做gem 相關Ruby開源套件貢獻者會在此網站平台做釋出 https://rubygems.org/ 在一些自然語言語料庫收集任務最為知名的就是維基百科 https://dumps.wikimedia.org/ 當然要注意的是wikimedia有對下載者進行了速率限制,並將每個 IP 位址的連線數上限設為 3 個。目的是確保每個人都能以合理的下載速度存取檔案。 在這邊要從官方網站的Database backup dumps進去 也就是所有跨語言的公開WIKI媒體資料完整副本,以嵌入 XML 的維基文本來源檔案和元資料形式提供。 官方有釋出dumps出來的文本壓縮檔無法直接解析需要特殊前處理 https://dumps.wikimedia.org/backup-index.html 看 Wikipedia 網域抓語言代碼: https://en.wikipedia.org/ → enwiki https://zh.wikipedia.org/ → zhwiki https://ja.wikipedia.org/ → jawiki 比方說 日本語言的最新dumps資料網址 https://dumps.wikimedia.org/jawiki/latest/ 英文語言的最新dumps資料網址 https://dumps.wikimedia.org/enwiki/latest/ https://dumps.wikimedia.org/enwiki/20260201/ 中文語言的最新dumps資料網址 https://dumps.wikimedia.org/zhwiki/latest/ https://dumps.wikimedia.org/zhwiki/20260201/ 舉例這邊針對英文和中文各自bz2做下載 enwiki-latest-pages-articles.xml.bz2 zhwiki-latest-pages-articles.xml.bz2 wiki中文語料庫僅3GB相較英文WIKI的23.2G來的小很多 Solution1. wp2txt 剛好涉及到裝wp2txt https://...