發表文章

目前顯示的是有「Vision Transformers」標籤的文章

Vision Transformers_相關專業術語與原理_一些最具影響力的純視覺 Transformer

圖片
  Vision Transformers(視覺變換器) 事實上在ViT被發展出來之前,已有帶視覺注意力的 RNN 與混合 CNN-Transformer 模型。 ViT 的前身 RNNs with Visual Attention(具視覺注意力的循環神經網路) Show, Attend and Tell: Neural Image Caption Generation with Visual Attention https://arxiv.org/abs/1502.03044 https://arxiv.org/pdf/1502.03044 最早主要提出了自動根據一張影像來生成一段文字描述 注意力機制在自然語言處理之外的最早應用之一,是使用視覺注意力來生成影像描述。 在這裡,卷積神經網路會先處理影像並輸出一些特徵圖。 接著配備注意力機制的解碼器,RNN 會一次產生一個詞元來生成描述。 解碼器在每個解碼步驟使用注意力層,專注於影像中恰當的部分。 模型生成了描述「A woman is throwing a Frisbee in a park」,可觀察到當解碼器即將輸出單字「Frisbee」時,它將注意力集中在哪個輸入影像的區域:很明顯,大部分注意力都集中在飛盤上。其他還有像是聚焦在一個小女孩或一隻狗等,都是聚焦在英文句子主詞的注意力。 注意力機制的另一個額外好處是,它們讓人更容易理解促使模型產生輸出的原因。 模型會具有可解釋性,當模型犯錯時,這尤其有用。 在2016年論文中就有探討到如下案例。 "Why Should I Trust You?": Explaining the Predictions of Any Classifier https://arxiv.org/abs/1602.04938 https://arxiv.org/pdf/1602.04938 例如,如果一張在雪地裡散步的狗的影像被標註為「在雪地裡散步的狼」,那麼你可以回頭檢查模型在輸出「狼」這個詞時注意了什麼。你可能會發現它不只注意到狗,也注意到雪,這暗示了一個可能的解釋:也許模型學會透過檢查周遭是否有大量雪來區分狗與狼。 該論文提出了另一種可解釋性的方法:在分類器某次預測的局部鄰域內,學習一個可解釋的模型來解釋該預測。 以下一些最具影響力的純視覺 Transformer,只...