[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)

- 3月 08, 2026

Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure

https://ieeexplore.ieee.org/abstract/document/9512087/

研究問題

為解決影像生程說明文字篇幅過於簡短、死板、單薄。韓國學者們KYUNGBOK MIN、MINH DANG、HYEONJOON MOON(韓國首爾世宗大學-電腦科學與工程博士)嘗試想透過結合影像描述資料集和人工蒐集故事語料庫，來進行短篇故事描述生成(Short Story Captioning,SSCap)。提出所謂的Visual Story Writer Model，藉此來協助故事創作者找尋靈感。

作者想驗證，是否能從一張圖片出發，不只描述「圖中有什麼」，而是進一步寫出像恐怖或愛情風格的短故事，同時維持語意關聯與上下文一致性。

資料集和前處理

本研究使用兩大資料來源：

1.故事語料庫

作者自行從 Smashwords 線上電子書平台爬取蒐集免費小說，挑選字數超過 20,000 字的作品，以降低雜訊與過短文本影響。最後建立了兩種文類的故事資料集：

愛情(romance)：500 篇
恐怖(horror)：621 篇

於2021年之前學者們爬取Smashwords線上電子書平台，檔案格式為pdf，因此還需要透過pdf2txt的函式庫來轉換為純文字。接續透過python nlp的函式庫做前處理(論文中僅提到移除空白列)，最終會將所有電子書文榜都儲存至單一一份檔案中。

透過一種包含結合循環神經網路(RNN)和encoder-decoder架構的無監督式學習框架。

(2026~至今Smashwords線上電子書平台檔案下載下來都是epub格式，因此解析純文本過程會需要另外研究。)

2.Conceptual Captions 資料集

影像描述資料集選用Google於2018年所釋出的Conceptual Captions 資料集，共涵蓋超過330萬對image跟captions。包含超過 330 萬組 image-caption pairs，比 MS-COCO 更大且更具多樣性。

目前官方下載點已經失效。

針對Conceptual Captions 資料集，學者們則是將所有句子皆轉為小寫，並刪除非字母、數字字元，濾除掉於資料集中超過5次的詞語。

模型架構

可分成三個主要步驟:

Stage1. 影像 caption 生成

先使用 deep visual-semantic alignment 架構，把影像區域與文字嵌入到共同語意空間中，先為輸入圖片產生一段基本 caption。

影像端用 RCNN 萃取區域特徵
文字端用 RNN 建立句子表示

Stage2. Skip-thought (sentence encoder-decoder)

接著，作者使用類似 skip-thought 的句子編碼器-解碼器架構來學習故事語言表示。

Encoder 使用 GRU，並進一步擴充成TGRU(Two-stream Gated Recurrent Unit)來同時考慮前後文

輸入當前句

s_i

後，模型嘗試重建前一句

s_{i-1}

和後一句

s_{i+1}

這樣可學到句子在連續文本中的語意與語法關係，幫助後續故事生成維持連貫性。

Stage3. Deep style transfer

最後，作者設計一個簡單的風格轉換函數：

F(x)=x-c+b

其中：

$x$ ：caption 的向量表示
$c$ ：caption 風格的平均向量
$b$ ：目標故事風格（如 romance）的平均向量

意思是：保留圖片 caption 的內容語意，再把文字風格往故事語料的風格空間移動，最後送入 decoder 生成短故事。

實驗方法與結果

在 Ubuntu 16.04 + NVIDIA DIGITS 環境下訓練模型

硬體包含 Intel i7-5930K、64GB RAM、4 張 Titan X 12GB GPU。

在影像 caption 模型部分，Conceptual Captions 資料集採 75% 訓練、25% 驗證。

Caption 模型訓練結果

論文提供了 loss curve（圖 3），顯示訓練與驗證 loss 都相對穩定，驗證 loss 在第 30 個 epoch 左右約維持在 0.048。

故事生成結果

論文主要以質化展示為主，在圖 4 與圖 5 中展示一般照片與藝術風格圖片的生成結果。模型能先產生原始 caption，再分別轉成 romance 或 horror 風格的短故事。

結論與限制

作者認為此方法展示了從圖片生成短篇故事的可行性，但也承認研究仍有諸多不足與限制：

沒有深入處理更細緻的文法與敘事細節
使用的模型仍偏基礎，主要是 CNN + GRU
故事長度、自然度與細節豐富度仍可再提升

搜尋此網誌

第25個冬天

[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)

留言

張貼留言

這個網誌中的熱門文章

SAP物料主數據(Material Master Data)

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義