[自然語言]術語筆記_詞袋模型BOW(Bag of Words)&詞集模型(Set of Words)
https://sep.com/blog/a-bag-of-words-levels-of-language/
詞袋模型BOW(Bag of Words)-One-hot表示法
詞袋模型BOW(Bag of Words)-One-hot表示法
- 最早用於提取文本特徵提取手法
- 將文本直接簡化為一系列集合,不考慮語法和詞序關係,每個詞互相獨立。
- 該方式也被稱作詞袋模型(Bag of Words,BOW),只是把詞直接裝進袋子中,詞和文本關係就相當於文本是一個袋子。
- 早期較簡易的模型,對文本中資訊較多丟失。
- 最早被提出是為了解決文檔分類問題,目前也有應用魚NLP、CV等領域。
具體作法
對料語進行清理,並完成分詞,比方有一句話如下:
大魚吃小魚也吃蝦米,小魚吃蝦米。
對每個詞進行編號,形成字典(順序無關的流水號)
{"大魚":1,"吃":2,"小魚":3,"也":4,"蝦米":5}
用0,1代表該詞是否在文本中出現,從而將文本紀錄為一個特徵向量。
大魚吃小魚也吃蝦米 =>[大魚,吃,小魚,也,蝦米] => [1,2,1,1,1]
吃出現兩次
小魚吃蝦米 => [0,1,1,0,1]
詞集模型(Set of Words)
- 若不考慮詞頻,減少模型複雜度則就稱為Set of Words。
- 常用在短文本分析。
大魚吃小魚也吃蝦米 =>[大魚,吃,小魚,也,蝦米] => [1,1,1,1,1]
One-hot表示法
留言
張貼留言