馬可夫鏈(markov chain)應用於文本段落、句子生成,讓敘述更豐富化的可行性研究_part1.
至今多數創作文本生成主題圍繞透過類似GPT或Gemini等LLM來介接API。 使用現成的訓練模型,來實作聊天機器人或文章生成。 即使沒有自然語言處理的專業知識也能實作上述功能, 然而 演算法本身會屬於黑盒狀態,並且可解釋性較弱甚至有幻覺的風險。 此外若要自行構建新的訓練模型,就需要理解這些文章生成的演算法。 在短文、文章段落、句子生成等NLP演算法中,馬可夫鏈(markov chain)絕對是一個經典的算法。 比方有一句話 “I like turtles. I like rabbits. I don't like snails.” 套用於馬可夫鏈呈現如下圖 https://www.awalsh128.com/text-generation-using-markov-chains/ 上述連鎖表示,在這些句子中 100%(1.0)將以 I 開頭。 接著會是 like 的機率約 66%(0.66),而 don't 的機率約 33%(0.33)。 單字 don't 之後總是(100%/1.0)接著 like。 最後,烏龜、兔子和蝸牛會各自有大約 33%(0.33)的機率被接在後面。 馬可夫鏈的優點在於它們能在不具備語言語法或語意知識的情況下形成詞的相依關係。 該鏈純粹根據從語料庫中抽取的統計資訊來建立。 因此符合領域知識的語料庫其豐富與多元程度建置,會是豐富化敘述的關鍵。 也許於Image Caption應用中可以再疊加「語意分割(ADE20K資料集現成的模型)」區分出各區域物件單詞,再搭配WordNet做文字馬可夫鏈改善敘述單薄問題也說不定。 馬可夫鏈是一種統計模型,可用於監督式和非監督式學習。 當我們使用馬可夫鏈進行監督式學習時,代表可能要進行文本分類。 而應用在文本生成時,就屬於非監督式學習任務的統計模型,使用它通過預測不同狀態的轉移概率來生成文本。 於文本生成任務中,主要先探討一階馬可夫模型(First Order Markov Model) 一階馬可夫模型的核心在於: 下一個狀態的出現機率僅受當前狀態影響 。只要掌握了現在,所有的過去資訊對於預測未來都不再具有額外的參考價值。在文本生成情境,馬可夫模型中的狀態就代表這些詞或文本中存在的標記。 Ref: Can AI write my essay for me?(markov chain...