[論文筆記]Show and Tell: A Neural Image Caption Generator
Show and Tell:一個神經影像描述生成器 年份:2015年 期刊:CVPR 論文連結: https://arxiv.org/abs/1411.4555 研究問題 學者們提出一個基於深度遞迴架構的生成模型,結合電腦視覺與機器翻譯的最新技術,用來產生描述影像的自然句子。 機器翻譯領域當時已經有 encoder–decoder RNN,把一串文字編碼成向量,再解碼成另一串文字。學者們認為RNN這類於機器翻譯有良好能力的模型概念,也能應用於影像描述,因為一張影像到一個語句也屬於另類機器翻譯。 該模型經過訓練,使目標描述句子在給定訓練影像時的機率最大化。 學者們的模型是資料驅動並以端到端方式訓練,並搭配豐富多元資料集,為了解答以下問題: 資料集規模如何影響泛化能力? 這篇工作最直接的做法,是在多個規模與性質不同的資料集上訓練與測試,包括較小的 Pascal、較中等的 Flickr30k、大一些但 noisy 的 SBU,以及當時很大的 MS COCO。 針對較大、標註較多樣的 COCO 能讓模型學到更豐富的語言模式與視覺概念,並在 BLEU-4 上達到當時 SOTA,顯示 規模擴大對泛化有明顯幫助 。 能達成哪些種類的遷移學習? 語言與圖片之間的遷移 影像用 CNN 映射到固定向量,再與文字 embedding 一起送進 LSTM,形成共享的語意空間。此外原文也探討到word embedding 的鄰近詞,如「horse」附近有「pony、donkey、goat」,作者明講這種語義鄰近可以幫助 CNN 對「長得像馬的動物」提取較通用的特徵,屬於語言資訊反向影響視覺表徵的例子。 任務形式上的遷移(同一任務只是跨資料集) 這裡的「遷移」都是「同一任務(圖像描述)但不同資料分布、標註品質」之間的遷移。在一個大型 caption 資料集(如 COCO)上訓練好的 CNN+LSTM,可以在較小的資料集(如 Pascal、Flickr30k)上 fine-tune改善小資料集表現。論文有提到,從較大的 Flickr30k 訓練,轉去 Flickr8k 測試,觀察資料量對泛化的影響。 如何處理弱標註的範例? 論文沒有設計額外損失或半監督方法專門處理弱標註;對於噪音帶來的負面效果,幾乎沒有細緻分析,只用整體指標改善來做「實證」。 研究背景 過去做圖片理解多半是「標籤分類」或「偵測特...