第25個冬天

發表文章

目前顯示的是有「論文研讀參考」標籤的文章

Vision Transformers_相關專業術語與原理_一些最具影響力的純視覺 Transformer

- 10月 31, 2025

Vision Transformers(視覺變換器) 事實上在ViT被發展出來之前，已有帶視覺注意力的 RNN 與混合 CNN-Transformer 模型。 ViT 的前身 RNNs with Visual Attention(具視覺注意力的循環神經網路) Show, Attend and Tell: Neural Image Caption Generation with Visual Attention https://arxiv.org/abs/1502.03044 https://arxiv.org/pdf/1502.03044 最早主要提出了自動根據一張影像來生成一段文字描述注意力機制在自然語言處理之外的最早應用之一，是使用視覺注意力來生成影像描述。在這裡，卷積神經網路會先處理影像並輸出一些特徵圖。接著配備注意力機制的解碼器，RNN 會一次產生一個詞元來生成描述。解碼器在每個解碼步驟使用注意力層，專注於影像中恰當的部分。模型生成了描述「A woman is throwing a Frisbee in a park」，可觀察到當解碼器即將輸出單字「Frisbee」時，它將注意力集中在哪個輸入影像的區域：很明顯，大部分注意力都集中在飛盤上。其他還有像是聚焦在一個小女孩或一隻狗等，都是聚焦在英文句子主詞的注意力。注意力機制的另一個額外好處是，它們讓人更容易理解促使模型產生輸出的原因。模型會具有可解釋性，當模型犯錯時，這尤其有用。在2016年論文中就有探討到如下案例。 "Why Should I Trust You?": Explaining the Predictions of Any Classifier https://arxiv.org/abs/1602.04938 https://arxiv.org/pdf/1602.04938 例如，如果一張在雪地裡散步的狗的影像被標註為「在雪地裡散步的狼」，那麼你可以回頭檢查模型在輸出「狼」這個詞時注意了什麼。你可能會發現它不只注意到狗，也注意到雪，這暗示了一個可能的解釋：也許模型學會透過檢查周遭是否有大量雪來區分狗與狼。該論文提出了另一種可解釋性的方法：在分類器某次預測的局部鄰域內，學習一個可解釋的模型來解釋該預測。以下一些最具影響力的純視覺 Transformer，只...

閱讀完整內容

Spotify – Large Scale, Low Latency, P2P Music-on-Demand Streaming

- 10月 08, 2025

Spotify – Large Scale, Low Latency, P2P Music-on-Demand Streaming https://www.csc.kth.se/~gkreitz/spotify-p2p10/spotify-p2p10.pdf https://ieeexplore.ieee.org/document/5569963 Peer-to-peer streaming of media content https://patents.google.com/patent/US8316146B2/en former Spotify CTO-Andreas Ehn https://marketrealist.com/tech-comm-services/andreas-ehn-spotify-now/ Gunnar Kreitz https://www.csc.kth.se/~gkreitz/ Ludvig Strigeus https://torrentfreak.com/utorrent-inventor-wins-prestigious-technology-innovation-award-221114/ Spotify 於 2008 年 10 月推出，截至2010(論文發表時間)於當時，已在六個歐洲國家擁有超過 700 萬名使用者。服務提供兩種版本：免費版（含廣告）每月付費的高級版:高級版提供一些額外功能，例如以更高位元率串流音樂，以及同步播放清單以供離線使用。兩種版本皆可無限制地串流音樂，而大多數使用者使用的是免費版。 Spotify 客戶端的一大特色是其低播放延遲。播放一首曲目的中位延遲時間為 265 毫秒。此服務並非根據網頁，而是使用專屬的客戶端與通訊協定。市面上有諸多「隨選音樂串流服務」(on-demand music streaming services)，在當時除Spotify之外，幾乎都是網頁型應用。通常使用 Adobe Flash 或網頁瀏覽器外掛程式進行串流。此外，它們都是純粹的Clinet-Server架構，並未採用P2P技術。在隨選串流領域中，點對點技術的應用在視訊隨選服務中更為普遍。提供隨選串流的服務與檔案分享應用程式有許多共通之處。例如，Spotify 用於尋找其他用戶的機制與 BitTorrent...

閱讀完整內容