發表文章

目前顯示的是有「論文研讀參考」標籤的文章

Vision Transformers_相關專業術語與原理_一些最具影響力的純視覺 Transformer

圖片
  Vision Transformers(視覺變換器) 事實上在ViT被發展出來之前,已有帶視覺注意力的 RNN 與混合 CNN-Transformer 模型。 ViT 的前身 RNNs with Visual Attention(具視覺注意力的循環神經網路) Show, Attend and Tell: Neural Image Caption Generation with Visual Attention https://arxiv.org/abs/1502.03044 https://arxiv.org/pdf/1502.03044 最早主要提出了自動根據一張影像來生成一段文字描述 注意力機制在自然語言處理之外的最早應用之一,是使用視覺注意力來生成影像描述。 在這裡,卷積神經網路會先處理影像並輸出一些特徵圖。 接著配備注意力機制的解碼器,RNN 會一次產生一個詞元來生成描述。 解碼器在每個解碼步驟使用注意力層,專注於影像中恰當的部分。 模型生成了描述「A woman is throwing a Frisbee in a park」,可觀察到當解碼器即將輸出單字「Frisbee」時,它將注意力集中在哪個輸入影像的區域:很明顯,大部分注意力都集中在飛盤上。其他還有像是聚焦在一個小女孩或一隻狗等,都是聚焦在英文句子主詞的注意力。 注意力機制的另一個額外好處是,它們讓人更容易理解促使模型產生輸出的原因。 模型會具有可解釋性,當模型犯錯時,這尤其有用。 在2016年論文中就有探討到如下案例。 "Why Should I Trust You?": Explaining the Predictions of Any Classifier https://arxiv.org/abs/1602.04938 https://arxiv.org/pdf/1602.04938 例如,如果一張在雪地裡散步的狗的影像被標註為「在雪地裡散步的狼」,那麼你可以回頭檢查模型在輸出「狼」這個詞時注意了什麼。你可能會發現它不只注意到狗,也注意到雪,這暗示了一個可能的解釋:也許模型學會透過檢查周遭是否有大量雪來區分狗與狼。 該論文提出了另一種可解釋性的方法:在分類器某次預測的局部鄰域內,學習一個可解釋的模型來解釋該預測。 以下一些最具影響力的純視覺 Transformer,只...

Spotify – Large Scale, Low Latency, P2P Music-on-Demand Streaming

Spotify – Large Scale, Low Latency, P2P Music-on-Demand Streaming https://www.csc.kth.se/~gkreitz/spotify-p2p10/spotify-p2p10.pdf https://ieeexplore.ieee.org/document/5569963 Peer-to-peer streaming of media content https://patents.google.com/patent/US8316146B2/en former Spotify CTO-Andreas Ehn https://marketrealist.com/tech-comm-services/andreas-ehn-spotify-now/ Gunnar Kreitz https://www.csc.kth.se/~gkreitz/ Ludvig Strigeus https://torrentfreak.com/utorrent-inventor-wins-prestigious-technology-innovation-award-221114/ Spotify 於 2008 年 10 月推出,截至2010(論文發表時間)於當時,已在六個歐洲國家擁有超過 700 萬名使用者。 服務提供兩種版本: 免費版(含廣告) 每月付費的高級版:高級版提供一些額外功能,例如以更高位元率串流音樂,以及同步播放清單以供離線使用。 兩種版本皆可無限制地串流音樂,而大多數使用者使用的是免費版。 Spotify 客戶端的一大特色是其低播放延遲。播放一首曲目的中位延遲時間為 265 毫秒。此服務並非根據網頁,而是使用專屬的客戶端與通訊協定。 市面上有諸多「隨選音樂串流服務」(on-demand music streaming services),在當時除Spotify之外,幾乎都是網頁型應用。通常使用 Adobe Flash 或網頁瀏覽器外掛程式進行串流。此外,它們都是純粹的Clinet-Server架構,並未採用P2P技術。在隨選串流領域中,點對點技術的應用在視訊隨選服務中更為普遍。 提供隨選串流的服務與檔案分享應用程式有許多共通之處。 例如,Spotify 用於尋找其他用戶的機制與 BitTorrent...