[論文筆記]Skip-Thought Vectors_將句子或片語(而非單詞)向量化
在導讀此篇論文筆記之前,還需要有RNN、LSTM等先備知識。 https://arxiv.org/pdf/1506.06726 Skip-Thoughts 使用跳躍思維模型 與 word2vec 相當相似是一種自然語言處理模型,但不是一次將個別單詞轉換為向量。 取而代之,將整個句子作為單位轉換為向量。 主要理論是去取得一個自然語言語料庫,並找出哪些句子傾向於彼此相鄰出現,然後訓練一個神經網路,使其能預測哪些句子預期會出現在任何其他句子之前或之後。 研究問題 這項研究試圖解決的核心問題是:如何在這個缺乏標註數據的狀況下,學習出高品質、通用且分佈式的句子表示向量(Distributed Sentence Representations)? 在當時,雖然詞向量(Word Vectors)已經能透過非監督學習取得很好的效果,但句子向量的學習大多仍依賴「監督式任務」(Supervised tasks),例如情感分析或邏輯推理 。 這導致模型學習到的特徵往往只針對特定任務有效,缺乏通用性。雖然 Paragraph Vector 是一種非監督替代方案,但它在測試階段需要進行推論來計算新句子的向量,效率較低 。 作者希望創造一種「隨取隨用」(off-the-shelf)的編碼器,能將任何句子映射成向量,並直接應用於各種下游任務 Skip-Thought Vectors採用的encoder-decoder結構,會先將輸入句子的單詞序列進行編碼,並依序預測前後文句的單詞作為輸出。通過學習句子與其前後文句之間的共現關係,Skip-thought 能夠獲得句子編碼結果的數值向量(Skip-Thought Vector),可視為是對單詞向量合成方法本身的學習。 研究背景 Skip-thought 是由 Ryan Kiros 等人於 2015 年提出的一種深度學習演算法,用於將文檔中的句子表達轉換為數值向量。該演算法的特點在於採用無監督學習方式,因此在學習過程中無需標籤或註解過的文本。只要存在由有序句子組成的文檔,即可基於此進行學習並建立模型。 此篇論文研究的靈感主要來自於詞嵌入模型,但其演算法與 Word2vec 有很大的不同。 在 Word2vec(skip-gram)中,主要是透過對輸入詞彙預測其周邊位置的詞彙,來學習詞彙之間的共現關係。 從詞到句子: 既然 Skip-gram...