Windows作業系統環境下安裝Ruby_Wikipedia語料庫截取純文本wp2txt_WikiExtractor
(定位就跟微軟開發者在用的nuget差不多、或python的pip install....)
叫做gem
叫做gem
相關Ruby開源套件貢獻者會在此網站平台做釋出
在一些自然語言語料庫收集任務最為知名的就是維基百科
https://dumps.wikimedia.org/
當然要注意的是wikimedia有對下載者進行了速率限制,並將每個 IP 位址的連線數上限設為 3 個。目的是確保每個人都能以合理的下載速度存取檔案。
在這邊要從官方網站的Database backup dumps進去
也就是所有跨語言的公開WIKI媒體資料完整副本,以嵌入 XML 的維基文本來源檔案和元資料形式提供。
官方有釋出dumps出來的文本壓縮檔無法直接解析需要特殊前處理
比方說
日本語言的最新dumps資料網址
英文語言的最新dumps資料網址
https://dumps.wikimedia.org/enwiki/20260201/
中文語言的最新dumps資料網址
https://dumps.wikimedia.org/zhwiki/20260201/
舉例這邊針對英文和中文各自bz2做下載
enwiki-latest-pages-articles.xml.bz2
zhwiki-latest-pages-articles.xml.bz2
Solution1. wp2txt
剛好涉及到裝wp2txt
用來幫我們將 Wikipedia 這個網路上海量數據集給下載下來並轉換為文字的工具包
工欲善其事,必先利其器。
Ruby預設下載官方網站會自動推薦你反粗體的下載點
這邊用3.4.8-1(x64)他推薦的版本做下載
通常會評估套件相依來做下載導入,避免直接裝較不穩定且上下相容不太好的最新版。
產生Ruby34-X64目錄
執行以下指令
使用wp2txt 來將bz2檔案給轉換純文字檔,過程中會產生大量輸出檔案。
--input(或-i)就是指定傳入的bz2檔案
--output(或-o)就是指定轉出的檔案位置
要注意由於底層有引用到bunzip2.exe所以預設若電腦環境缺少就會失敗
https://github.com/yohasebe/wp2txt
Bzip2 for Windows
這邊實測
中文語意的解析花20分鐘,解壓出來總共是13.7GB。
英文的則要2小時多,解壓出來總共是107GB。
Solution2. WikiExtractor
其他備案就是透過
留言
張貼留言