[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)
Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure https://ieeexplore.ieee.org/abstract/document/9512087/ 研究問題 為解決影像生程說明文字篇幅 過於簡短、死板、單薄 。韓國學者們KYUNGBOK MIN、MINH DANG、HYEONJOON MOON(韓國首爾世宗大學-電腦科學與工程博士)嘗試想透過結合影像描述資料集和人工蒐集故事語料庫,來進行短篇故事描述生成(Short Story Captioning,SSCap)。提出所謂的Visual Story Writer Model,藉此來協助故事創作者找尋靈感。 作者想驗證,是否能從一張圖片出發,不只描述「圖中有什麼」,而是進一步寫出像恐怖或愛情風格的短故事,同時維持語意關聯與上下文一致性。 資料集和前處理 本研究使用兩大資料來源: 1.故事語料庫 作者自行從 Smashwords 線上電子書平台爬取蒐集免費小說,挑選字數超過 20,000 字的作品,以降低雜訊與過短文本影響。最後建立了兩種文類的故事資料集: 愛情(romance):500 篇 恐怖(horror):621 篇 於2021年之前學者們爬取Smashwords線上電子書平台,檔案格式為pdf,因此還需要透過pdf2txt的函式庫來轉換為純文字。接續透過python nlp的函式庫做前處理(論文中僅提到移除空白列),最終會將所有電子書文榜都儲存至單一一份檔案中。 透過一種包含結合循環神經網路(RNN)和encoder-decoder架構的無監督式學習框架。 (2026~至今Smashwords線上電子書平台檔案下載下來都是epub格式,因此解析純文本過程會需要另外研究。) 2.Conceptual Captions 資料集 影像描述資料集選用Google於2018年所釋出的 Conceptual Captions 資料集 ,共 涵蓋超過330萬對image跟captions。 包含超過 330 萬組 image-caption pairs,比 MS-COCO 更大且更具多樣性。 目前官方下載點已經失效。 針對Conceptual Captions 資料集,學者們則是將...