[自然語言]術語筆記_詞袋模型BOW(Bag of Words)&詞集模型(Set of Words)

https://sep.com/blog/a-bag-of-words-levels-of-language/

詞袋模型BOW(Bag of Words)-One-hot表示法
  • 最早用於提取文本特徵提取手法
  • 將文本直接簡化為一系列集合,不考慮語法和詞序關係,每個詞互相獨立。
  • 該方式也被稱作詞袋模型(Bag of Words,BOW),只是把詞直接裝進袋子中,詞和文本關係就相當於文本是一個袋子。
  • 早期較簡易的模型,對文本中資訊較多丟失。
  • 最早被提出是為了解決文檔分類問題,目前也有應用魚NLP、CV等領域。
具體作法
對料語進行清理,並完成分詞,比方有一句話如下:
大魚吃小魚也吃蝦米,小魚吃蝦米。

對每個詞進行編號,形成字典(順序無關的流水號)
{"大魚":1,"吃":2,"小魚":3,"也":4,"蝦米":5}

用0,1代表該詞是否在文本中出現,從而將文本紀錄為一個特徵向量。
大魚吃小魚也吃蝦米 =>[大魚,吃,小魚,也,蝦米] => [1,2,1,1,1]  
吃出現兩次
小魚吃蝦米 => [0,1,1,0,1]

詞集模型(Set of Words)
  • 若不考慮詞頻,減少模型複雜度則就稱為Set of Words。
  • 常用在短文本分析。
大魚吃小魚也吃蝦米 =>[大魚,吃,小魚,也,蝦米] => [1,1,1,1,1]  

One-hot表示法














留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理