第25個冬天

發表文章

目前顯示的是有「論文筆記」標籤的文章

[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)

- 3月 08, 2026

Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure https://ieeexplore.ieee.org/abstract/document/9512087/ 研究問題為解決影像生程說明文字篇幅過於簡短、死板、單薄。韓國學者們KYUNGBOK MIN、MINH DANG、HYEONJOON MOON(韓國首爾世宗大學-電腦科學與工程博士)嘗試想透過結合影像描述資料集和人工蒐集故事語料庫，來進行短篇故事描述生成(Short Story Captioning,SSCap)。提出所謂的Visual Story Writer Model，藉此來協助故事創作者找尋靈感。作者想驗證，是否能從一張圖片出發，不只描述「圖中有什麼」，而是進一步寫出像恐怖或愛情風格的短故事，同時維持語意關聯與上下文一致性。資料集和前處理本研究使用兩大資料來源： 1.故事語料庫作者自行從 Smashwords 線上電子書平台爬取蒐集免費小說，挑選字數超過 20,000 字的作品，以降低雜訊與過短文本影響。最後建立了兩種文類的故事資料集：愛情(romance)：500 篇恐怖(horror)：621 篇於2021年之前學者們爬取Smashwords線上電子書平台，檔案格式為pdf，因此還需要透過pdf2txt的函式庫來轉換為純文字。接續透過python nlp的函式庫做前處理(論文中僅提到移除空白列)，最終會將所有電子書文榜都儲存至單一一份檔案中。透過一種包含結合循環神經網路(RNN)和encoder-decoder架構的無監督式學習框架。 (2026~至今Smashwords線上電子書平台檔案下載下來都是epub格式，因此解析純文本過程會需要另外研究。) 2.Conceptual Captions 資料集影像描述資料集選用Google於2018年所釋出的 Conceptual Captions 資料集，共涵蓋超過330萬對image跟captions。包含超過 330 萬組 image-caption pairs，比 MS-COCO 更大且更具多樣性。目前官方下載點已經失效。針對Conceptual Captions 資料集，學者們則是將...

閱讀完整內容

[論文筆記]Skip-Thought Vectors_將句子或片語(而非單詞)向量化

- 2月 15, 2026

在導讀此篇論文筆記之前，還需要有RNN、LSTM等先備知識。 https://arxiv.org/pdf/1506.06726 Skip-Thoughts 使用跳躍思維模型與 word2vec 相當相似是一種自然語言處理模型，但不是一次將個別單詞轉換為向量。取而代之，將整個句子作為單位轉換為向量。主要理論是去取得一個自然語言語料庫，並找出哪些句子傾向於彼此相鄰出現，然後訓練一個神經網路，使其能預測哪些句子預期會出現在任何其他句子之前或之後。研究問題這項研究試圖解決的核心問題是：如何在這個缺乏標註數據的狀況下，學習出高品質、通用且分佈式的句子表示向量（Distributed Sentence Representations）？在當時，雖然詞向量（Word Vectors）已經能透過非監督學習取得很好的效果，但句子向量的學習大多仍依賴「監督式任務」（Supervised tasks），例如情感分析或邏輯推理。這導致模型學習到的特徵往往只針對特定任務有效，缺乏通用性。雖然 Paragraph Vector 是一種非監督替代方案，但它在測試階段需要進行推論來計算新句子的向量，效率較低。作者希望創造一種「隨取隨用」（off-the-shelf）的編碼器，能將任何句子映射成向量，並直接應用於各種下游任務 Skip-Thought Vectors採用的encoder-decoder結構，會先將輸入句子的單詞序列進行編碼，並依序預測前後文句的單詞作為輸出。通過學習句子與其前後文句之間的共現關係，Skip-thought 能夠獲得句子編碼結果的數值向量(Skip-Thought Vector)，可視為是對單詞向量合成方法本身的學習。研究背景 Skip-thought 是由 Ryan Kiros 等人於 2015 年提出的一種深度學習演算法，用於將文檔中的句子表達轉換為數值向量。該演算法的特點在於採用無監督學習方式，因此在學習過程中無需標籤或註解過的文本。只要存在由有序句子組成的文檔，即可基於此進行學習並建立模型。此篇論文研究的靈感主要來自於詞嵌入模型，但其演算法與 Word2vec 有很大的不同。在 Word2vec(skip-gram)中，主要是透過對輸入詞彙預測其周邊位置的詞彙，來學習詞彙之間的共現關係。從詞到句子：既然 Skip-gram...

閱讀完整內容

[論文筆記]CIDEr: Consensus-based Image Description Evaluation

- 1月 20, 2026

https://www.youtube.com/watch?v=pVlcRbfCL6k 年份:2015年期刊:CVPR 論文連結: https://arxiv.org/abs/1411.5726 研究問題當使用自動技術對一幅圖像描述進行評價時，應該與專家的圖像描述一致。常用的一些句子相似度評價度量如基於 BLEU 的機器翻譯評分指標。然而這些方法的結果與人的評價相差很遠。現在介紹的 CIDEr 評估指標則是測量一個句子與一組人為生成真實句子的相似性，可以考慮語法、重點以及精度全部考慮在內。研究背景在自然語言處理中，給定一幅圖像，機器自動生成圖像描述具有廣泛的應用。但是如何評價一個圖像機器生成的描述是非常具有挑戰性。現在介紹如何自動評價一幅圖像描述的品質，即基於共識 (consensus-based) 的評價方法。假如每一幅圖像具有 50 個人工圖像描述，機器生成的圖像描述與這 50 個人工描述進行比較，得到選票多的機器圖像描述為最合適的描述。這種共識方法要求比較候選描述句子與參考描述句子的相似性比較，所以需要對每一個描述句子定義一個向量描述。使用 n-gram 作為句子特徵描述候選句子和參考句子。給定一幅圖像，假如有 50 個專家生成的參考句子（R1–R50）描述這幅圖像，有兩個需要評價的候選句子 C1 和 C2，從參考句子中任意選擇一個句子稱為 A，和 B 與 C 一起構成三元註釋。我們需要對 B 和 C 進行評價，看哪一個與句子 A 更相似。共識方法會在 B 和 C 之中選出一個，並使用每一條參考句子與 A 一起形成三元標註。參考句子透過投票給出候選 B 或 C 與參考 A 的相似性評分，最後根據共識評分結果得出：究竟是 B 或 C 與參考 A 更相似。 CIDEr 自動評價一幅圖像 I i I_i I i 的描述品質，使用共識方法評價一個候選圖像標註 c i c_i c i 匹配一組專家生成圖像描述 S i = { s i 1 , s i 2 , … , s i m } S_i=\{s_{i1}, s_{i2}, \ldots, s_{im}\} 。首先把候選句子和參考句子中所有的詞映射到它們的 stem 或 root 形式。例如，fishes、fishing、fished 映射為根詞 fish。每個句子都表示為...

閱讀完整內容

[論文筆記]Show and Tell: A Neural Image Caption Generator

- 1月 19, 2026

Show and Tell：一個神經影像描述生成器年份:2015年期刊:CVPR 論文連結: https://arxiv.org/abs/1411.4555 研究問題學者們提出一個基於深度遞迴架構的生成模型，結合電腦視覺與機器翻譯的最新技術，用來產生描述影像的自然句子。機器翻譯領域當時已經有 encoder–decoder RNN，把一串文字編碼成向量，再解碼成另一串文字。學者們認為RNN這類於機器翻譯有良好能力的模型概念，也能應用於影像描述，因為一張影像到一個語句也屬於另類機器翻譯。該模型經過訓練，使目標描述句子在給定訓練影像時的機率最大化。學者們的模型是資料驅動並以端到端方式訓練，並搭配豐富多元資料集，為了解答以下問題: 資料集規模如何影響泛化能力? 這篇工作最直接的做法，是在多個規模與性質不同的資料集上訓練與測試，包括較小的 Pascal、較中等的 Flickr30k、大一些但 noisy 的 SBU，以及當時很大的 MS COCO。針對較大、標註較多樣的 COCO 能讓模型學到更豐富的語言模式與視覺概念，並在 BLEU-4 上達到當時 SOTA，顯示規模擴大對泛化有明顯幫助。能達成哪些種類的遷移學習? 語言與圖片之間的遷移影像用 CNN 映射到固定向量，再與文字 embedding 一起送進 LSTM，形成共享的語意空間。此外原文也探討到word embedding 的鄰近詞，如「horse」附近有「pony、donkey、goat」，作者明講這種語義鄰近可以幫助 CNN 對「長得像馬的動物」提取較通用的特徵，屬於語言資訊反向影響視覺表徵的例子。任務形式上的遷移(同一任務只是跨資料集) 這裡的「遷移」都是「同一任務（圖像描述）但不同資料分布、標註品質」之間的遷移。在一個大型 caption 資料集（如 COCO）上訓練好的 CNN+LSTM，可以在較小的資料集（如 Pascal、Flickr30k）上 fine-tune改善小資料集表現。論文有提到，從較大的 Flickr30k 訓練，轉去 Flickr8k 測試，觀察資料量對泛化的影響。如何處理弱標註的範例? 論文沒有設計額外損失或半監督方法專門處理弱標註；對於噪音帶來的負面效果，幾乎沒有細緻分析，只用整體指標改善來做「實證」。研究背景過去做圖片理解多半是「標籤分類」或「偵測特...

閱讀完整內容