Windows作業系統環境下安裝Ruby_Wikipedia語料庫截取純文本wp2txt_WikiExtractor




Ruby預設環境會有類似node.js的npm install的cli 
(定位就跟微軟開發者在用的nuget差不多、或python的pip install....)
叫做gem
相關Ruby開源套件貢獻者會在此網站平台做釋出


在一些自然語言語料庫收集任務最為知名的就是維基百科
https://dumps.wikimedia.org/
當然要注意的是wikimedia有對下載者進行了速率限制,並將每個 IP 位址的連線數上限設為 3 個。目的是確保每個人都能以合理的下載速度存取檔案。
在這邊要從官方網站的Database backup dumps進去
也就是所有跨語言的公開WIKI媒體資料完整副本,以嵌入 XML 的維基文本來源檔案和元資料形式提供。

官方有釋出dumps出來的文本壓縮檔無法直接解析需要特殊前處理

看 Wikipedia 網域抓語言代碼:
https://en.wikipedia.org/ → enwiki
https://zh.wikipedia.org/ → zhwiki
https://ja.wikipedia.org/ → jawiki
比方說
日本語言的最新dumps資料網址
英文語言的最新dumps資料網址
https://dumps.wikimedia.org/enwiki/20260201/
中文語言的最新dumps資料網址
https://dumps.wikimedia.org/zhwiki/20260201/



舉例這邊針對英文和中文各自bz2做下載
enwiki-latest-pages-articles.xml.bz2
zhwiki-latest-pages-articles.xml.bz2


wiki中文語料庫僅3GB相較英文WIKI的23.2G來的小很多



Solution1. wp2txt


剛好涉及到裝wp2txt
用來幫我們將 Wikipedia 這個網路上海量數據集給下載下來並轉換為文字的工具包
工欲善其事,必先利其器。

Ruby預設下載官方網站會自動推薦你反粗體的下載點
這邊用3.4.8-1(x64)他推薦的版本做下載
通常會評估套件相依來做下載導入,避免直接裝較不穩定且上下相容不太好的最新版。



接受License

選擇安裝指定路徑(這邊用默認)




這邊電腦用的是WIndows 64位元的預設路徑會在C槽
產生Ruby34-X64目錄
記得添加系統環境變數要勾選(這邊也是用默認)





當跳出來終端這邊按Enter往下走配置流程



當安裝完後就可在開始選單搜索欄位查找到Ruby

開啟 Start Command Prompt with Ruby
執行以下指令
gem install wp2txt
會自動裝截自2026年2月初最新版本的wp2txt


wp2txt當安裝好後可以透過-h (--help)先閱覽該CLI參數功能有哪些

wp2txt --input E:\corpus\enwiki-latest-pages-articles.xml.bz2 -o E:\corpus\enwiki
使用wp2txt 來將bz2檔案給轉換純文字檔,過程中會產生大量輸出檔案。
--input(或-i)就是指定傳入的bz2檔案
--output(或-o)就是指定轉出的檔案位置


要注意由於底層有引用到bunzip2.exe所以預設若電腦環境缺少就會失敗
https://github.com/yohasebe/wp2txt
Bzip2 for Windows
再去補下載安裝bzip2




系統環境變數要指定避免找不到



這邊實測
中文語意的解析花20分鐘,解壓出來總共是13.7GB。
英文的則要2小時多,解壓出來總共是107GB。






Solution2. WikiExtractor

其他備案就是透過














留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理