[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)
Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure
研究問題
為解決影像生程說明文字篇幅過於簡短、死板、單薄。韓國學者們KYUNGBOK MIN、MINH DANG、HYEONJOON MOON(韓國首爾世宗大學-電腦科學與工程博士)嘗試想透過結合影像描述資料集和人工蒐集故事語料庫,來進行短篇故事描述生成(Short Story Captioning,SSCap)。提出所謂的Visual Story Writer Model,藉此來協助故事創作者找尋靈感。
作者想驗證,是否能從一張圖片出發,不只描述「圖中有什麼」,而是進一步寫出像恐怖或愛情風格的短故事,同時維持語意關聯與上下文一致性。
資料集和前處理
本研究使用兩大資料來源:
1.故事語料庫
作者自行從 Smashwords 線上電子書平台爬取蒐集免費小說,挑選字數超過 20,000 字的作品,以降低雜訊與過短文本影響。最後建立了兩種文類的故事資料集:
- 愛情(romance):500 篇
- 恐怖(horror):621 篇
於2021年之前學者們爬取Smashwords線上電子書平台,檔案格式為pdf,因此還需要透過pdf2txt的函式庫來轉換為純文字。接續透過python nlp的函式庫做前處理(論文中僅提到移除空白列),最終會將所有電子書文榜都儲存至單一一份檔案中。
透過一種包含結合循環神經網路(RNN)和encoder-decoder架構的無監督式學習框架。
(2026~至今Smashwords線上電子書平台檔案下載下來都是epub格式,因此解析純文本過程會需要另外研究。)
2.Conceptual Captions 資料集
影像描述資料集選用Google於2018年所釋出的Conceptual Captions 資料集,共涵蓋超過330萬對image跟captions。包含超過 330 萬組 image-caption pairs,比 MS-COCO 更大且更具多樣性。
目前官方下載點已經失效。
針對Conceptual Captions 資料集,學者們則是將所有句子皆轉為小寫,並刪除非字母、數字字元,濾除掉於資料集中超過5次的詞語。
模型架構
可分成 三個主要步驟:
Stage1. 影像 caption 生成
先使用 deep visual-semantic alignment 架構,把影像區域與文字嵌入到共同語意空間中,先為輸入圖片產生一段基本 caption。
- 影像端用 RCNN 萃取區域特徵
- 文字端用 RNN 建立句子表示
Stage2. Skip-thought (sentence encoder-decoder)
接著,作者使用類似 skip-thought 的句子編碼器-解碼器架構來學習故事語言表示。
Encoder 使用 GRU,並進一步擴充成TGRU(Two-stream Gated Recurrent Unit)來同時考慮前後文
輸入當前句 後,模型嘗試重建前一句 和後一句
這樣可學到句子在連續文本中的語意與語法關係,幫助後續故事生成維持連貫性。
這樣可學到句子在連續文本中的語意與語法關係,幫助後續故事生成維持連貫性。
Stage3. Deep style transfer
最後,作者設計一個簡單的風格轉換函數:
其中:
-
:caption 的向量表示
-
:caption 風格的平均向量
-
:目標故事風格(如 romance)的平均向量
意思是:保留圖片 caption 的內容語意,再把文字風格往故事語料的風格空間移動,最後送入 decoder 生成短故事。
實驗方法與結果
在 Ubuntu 16.04 + NVIDIA DIGITS 環境下訓練模型
硬體包含 Intel i7-5930K、64GB RAM、4 張 Titan X 12GB GPU。
在影像 caption 模型部分,Conceptual Captions 資料集採 75% 訓練、25% 驗證。
Caption 模型訓練結果
論文提供了 loss curve(圖 3),顯示訓練與驗證 loss 都相對穩定,驗證 loss 在第 30 個 epoch 左右約維持在 0.048。
故事生成結果
論文主要以質化展示為主,在圖 4 與圖 5 中展示一般照片與藝術風格圖片的生成結果。模型能先產生原始 caption,再分別轉成 romance 或 horror 風格的短故事。
結論與限制
作者認為此方法展示了從圖片生成短篇故事的可行性,但也承認研究仍有諸多不足與限制:
- 沒有深入處理更細緻的文法與敘事細節
- 使用的模型仍偏基礎,主要是 CNN + GRU
- 故事長度、自然度與細節豐富度仍可再提升
留言
張貼留言