發表文章

自然語言NER(Named Entity Recognition)_命名實體識別

圖片
https://www.geeksforgeeks.org/nlp/named-entity-recognition/ 命名實體識別(Named Entity Recognition, NER) 是一種從一段自然語言文本中找出相關實體,並標注出其位置以及類型的NLP技術。 是 NLP 中一項基本性的關鍵任務 是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎,被廣泛應用在自然語言處理領域。 命名實體分類 命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、專有名詞等。 一般學術領域 : NER 所涉及的命名實體一般包括 3 大類(實體類、時間類、數字類)和 7 小類(人名、地名、組織機構名、時間、日期、貨幣、百分比) 實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、會議名、產品名等)。另外,在一些應用場景下會給出特定領域內的實體,如書名、歌曲名、期刊名等。 NER的標註類型 在進行NER時候,通常需要對每個字做標註,中文為單一個字,英文則是用單詞,空格分隔。 標註的標籤分類通常如下表 類型 說明 B Begin ,代表實體片段的開始 I Intermediate ,代表實體片段的中間 M Middle ,代表實體片段的中間 E End ,代表實體片段的結束 S Single ,代表實體片段為單個字 O Other ,代表字符不為任何實體 套用上述表格規則就會如下 https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087 https://www.sciencedirect.com/science/article/pii/S0925231221016581 NER Tag Encoding分類 https://www.baeldung.com/cs/ner-nlp#bd-ner-tag-encoding 1.三位序列標註法(BIO) B 表示一個詞的詞首位置 I  表示「內部」(實體中非起始的詞) O 代表「外部」(不屬於任何實體的詞) 在 BIO 編碼中...

論文復現Part1.透過Python Selenium自動爬取Smashwords指定的免費風格小說(Romance:500篇/Horror:621篇)

圖片
Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure https://coolmandiary.blogspot.com/2026/03/deep-learning-based-short-story.html 這邊要注意Smashword要先註冊一個平台後 每一天有限制最多只能下載500本電子檔案,因此若超額就會下載失敗。 這時候手動瀏覽器自己去操作就會看到警示,要等隔天後再去下載。 預設存檔指定到Google Drive特定目錄,下次可以依照進度續Run。 使用到的套件有selenium pip install google-colab-selenium -q 透過網頁瀏覽操作可以觀察到網址等規則進行爬蟲 Romance https://www.smashwords.com/shelves/shelf/morefree/1235/free/medium Horror https://www.smashwords.com/shelves/shelf/morefree/874/free/medium 針對Romance分頁網址行為變化可以觀察到從0開始為第一頁後續依此類推。 https://www.smashwords.com/shelves/shelf/morefree/1235/free/medium/0 https://www.smashwords.com/shelves/shelf/morefree/1235/free/medium/1 https://www.smashwords.com/shelves/shelf/morefree/1235/free/medium/2 程式碼 這一個程式功能主要還可以斷點續RUN避免重複Call下載的網址,透過連上GoogleDrive判斷是否已經下載過了,約莫花了5分鐘就把論文原始的指定風格數量的電子書檔案下載下來了。 愛情(romance):500 篇 恐怖(horror):621 篇 成果就會是抓取指定數量的epub電子檔了

關於訓練的相關訴訟歷史事件

  Dirty Secrets of BookCorpus, a Key Dataset in Machine Learning https://medium.com/data-science/dirty-secrets-of-bookcorpus-a-key-dataset-in-machine-learning-6ee2927e8650 ChatGPT 数据集之谜 https://cloud.tencent.com/developer/article/2222858 台大生因語料訓練資料遭中央社提告!AI訓練在台灣的兩難 https://meet.bnext.com.tw/articles/view/52486? 作家起訴OpenAI 文本成為訓練素材 https://stli.iii.org.tw/news2019-detail.aspx?d=534&no=57 訓練 AI 模型的著作權風險:當資料成為兵家必爭之地,台灣有何策略? https://naipnews.naipo.com/6706/ 用百萬本書訓練AI犯不犯法?Claude母公司獲「合理使用」勝利判決,但用盜版書部分還是得罰 https://www.thenewslens.com/article/254890 美國法官判決Anthropic以版權書籍來訓練AI模型屬於合理使用 https://www.ithome.com.tw/news/169713 【著作權】AI 讀書犯法?從Google 封鎖Anna′s Archive 看「知識自由」的法律紅線 https://sbir.org.tw/ipcc/news_content?id=12284&page=3

使用Pytorch實作RCNN_何謂IoU?何謂SelectiveSearch?

圖片
https://medium.com/nerd-for-tech/research-summary-object-detection-upto-fast-rcnn-43d5944f4f6f RCNN (Regions with CNN features) 首先輸入一張影像 後續透過SelectiveSearch生成一些候選框Region proposals(至多2000個) warped region=>主要是影像預處理,可能作揖些縮放到同樣大小的處理。 當時論文採用的是VGG16方式來對2000個框做特徵提取,依此十分耗時。 最終做分類則是採用SVM 而Bounding-box部分採用回歸方式處理 平均一張影像在Nvidia K40 GPU要耗費47秒 https://github.com/ChouSamuel/Pytorch-RCNN-/blob/main/RCNN%E5%AF%A6%E4%BD%9C.ipynb

藉由Tensorflow&Keras_實作透過MLP對IMDb影評情緒分析_產生神經網路架構圖

圖片
  練習程式碼

賽局理論_ Chapter 07 Evolutionary Game Theory_筆記

最早由John Maynard Smith和G. R. Price提出 演化生物學基於這樣一個觀念:生物的基因在很大程度上決定了其可觀察的特徵,進而決定其在特定環境中的適應性。 較適合基因的基因隨著時間推移往往勝出,因為它們能提供較高的繁殖率。 這些生物中任何一種的成功,取決於其行為與其他生物的互動 比方,當兩隻甲蟲為食物競爭時,可能出現下列結果: 當體型相同的甲蟲競爭時,它們獲得相等的食物份額 當大型甲蟲與小型甲蟲競爭時,大型甲蟲獲得大多數食物 在所有情況下,較大的甲蟲從相同數量的食物中獲得的適合度利益較少。 某個族群中個體的適應度(fitness),是指其與該族群中某個隨機個體相互作用時所獲得的預期收益( expected payoff ) 若在一個群體中,有比例為 x 的個體使用策略 T,而比例為 1 − x 的個體使用策略 S(其中 x 為極小的正數),則稱策略 T 以 x 的程度入侵策略 S。 若存在一個(極小的)正數 y,使得當任何其他策略 T 以任何程度 x < y 入侵策略 S 時, 採用策略 S 的生物體適應度皆嚴格大於採用策略 T 的生物體適應度,則稱 S 為演化穩定(evolutionarily stable) 族群中有1 − x 比例的族群使用 Small,而 x 比例的族群使用 Large 小甲蟲的預期報酬如下: 5(1 − x) + 1 · x = 5 − 4x 大甲蟲的預期報酬如下: 8(1 − x) + 3 · x = 8− 5x =>「小」在演化上是不穩定的 族群中有 1−x 的比例使用 Large,而有 x 的比例使用 Small 大甲蟲的預期報酬如下: 3(1 − x) + 8 · x = 3 + 5x 小甲蟲的預期報酬如下: (1 − x) + 5 · x = 1 + 4x =>Large 為演化穩定策略 Ref https://plato.stanford.edu/archives/sum2018/entries/game-evolutionary/ https://www.pugetsound.edu/sites/default/files/file/evolutionarygametheorysample_0.pdf https://blog.csdn.net/qq_43616565/article/d...

兩階段目標檢測發展史(R-CNN,Fast R-CNN,Faster R-CNN)

圖片
  在探討RCNN之前可以先大概知道一個目標檢測發展歷史時間軸 最早期CNN提出之後,陸續從2014年到2016年雙階段目標檢測的技術陸續被提出。 在目標檢測技術的發展歷程中,兩階段式偵測方法是一個很重要的里程碑。 它的核心概念是:先找出可能存在目標的區域(Region Proposal),再對這些區域進行分類與邊界框回歸。這類方法的代表模型依序包括 R-CNN、Fast R-CNN、Faster R-CNN,可以看出整體演進方向就是:從準確率提升,逐步走向更高效率與端到端訓練。 https://medium.com/nerd-for-tech/research-summary-object-detection-upto-fast-rcnn-43d5944f4f6f 1. R-CNN(Region-Based CNN) 程式實作: 使用Pytorch實作RCNN_何謂IoU?何謂SelectiveSearch? 提出時間:2014 年 作者:Ross Girshick 論文名稱: Rich feature hierarchies for accurate object detection and semantic segmentation 論文連結: Rich feature hierarchies for accurate object detection and semantic segmentation(2014初版8頁) www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)(21頁) https://arxiv.org/abs/1311.2524 R-CNN 是早期兩階段目標檢測的重要代表作,首次明確將 Region Proposal(區域提議) 的概念引入目標檢測流程中。 它先透過 Selective Search 從影像中產生大量大小不一的候選區域(約2000個候選框),再將每一個候選區...