第25個冬天

發表文章

目前顯示的是 4月, 2026的文章

DeepFake Video Dataset整理

- 4月 28, 2026

無肖像權可用資料集待整理 Scientists warn deepfakes are about to become undetectable https://www.popsci.com/technology/deepfakes-undetectable-heartbeats/ WildDeepfake - deepfake dataset collected on the web for deepfake detection https://github.com/OpenTAI/wild-deepfake https://arxiv.org/pdf/2101.01456v1 曾在2026/6/9被使用於以下論文 Advancing Deepfake Video Detection with Deep Learning Based Multi-Stream Architecture https://ieeexplore.ieee.org/document/11546967 The DeepFake Detection Challenge (DFDC) Dataset https://arxiv.org/abs/2006.07397 https://ai.meta.com/datasets/dfdc/ https://www.innovatiana.com/en/datasets/deep-fake-detection-dfd-entire-original-dataset 曾在2026/6/11被使用於以下論文 FedMaxAdapt: Gradient-Guided Adaptive Sparsity for Scalable Multi-Modal Federated Deepfake Detection https://ieeexplore.ieee.org/document/11551901 曾在2026/6/8被使用於以下論文(但這篇也有用到FaceForensics++ 與 Celeb-DF) Deepfake Video Forensics Using ResNeXt–LSTM Visual Modeling and DSP-Enhanced Audio Spectrogram Analysis https://ieeexplore.ieee.org...

閱讀完整內容

賽局理論_ Chapter 06 Game theory_筆記_動態賽局(倒推法)

- 4月 28, 2026

所謂動態賽局，就猶如下棋一般，參與者一人走一步，出手有個先後次序。每個人每一步都要先想好對方會怎麼應對，思考為了得到想要的結果，自己最初應該怎麼抉擇。換言之，要向前展望，向後推導。動態賽局本質在於「可以改變遊戲規則」，也就是透過先下手為強來影響對方決策。形式上可用輪流出招的決策樹來表現。

閱讀完整內容

歐拉影片放大技術研究_Eulerian Video Magnification, EVM_捕捉影片中肉眼看不見的微小變化(工業設備異常檢測?)

- 4月 25, 2026

你是否想過，一段看起來靜止的普通影片，其實可能藏著人眼難以察覺的脈搏、心跳、呼吸、機械震動或結構晃動？有沒有辦法透過非接觸式的訊號捕抓這些肉眼看不明顯的微小震動方案呢? Eulerian Video Magnification，簡稱 EVM，中文常譯為歐拉影像放大或歐拉影片放大，正是一種用來把影片中微小變化「放大到看得見」的電腦視覺技術。 MIT CSAIL 的研究團隊在 2012 年 SIGGRAPH 發表了經典論文 Eulerian Video Magnification for Revealing Subtle Changes in the World 目標是揭露普通影片中肉眼難以看見的時間變化。 https://people.csail.mit.edu/mrub/evm/ https://people.csail.mit.edu/mrub/papers/vidmag.pdf 什麼是歐拉影像放大？歐拉影像放大的核心概念很直覺：輸入一段普通影片，先對每一幀影像做空間分解，再針對時間軸上的像素變化做濾波，最後把特定頻率範圍內的微小變化放大，讓原本看不見的變化變得明顯。MIT 專案頁明確說明，這個方法會對影片做 spatial decomposition、temporal filtering，然後將訊號放大以揭露隱藏資訊。簡單而言，EVM 並非傳統物件追蹤那樣一路追著某個點跑，而是站在固定影像位置上，觀察每個像素或區域隨時間產生的顏色、亮度或相位變化。這也是它被稱為「Eulerian」的原因：它借用了流體力學中 Eulerian perspective 的觀念，也就是在固定位置觀察變化，而不是跟著物體移動的 Lagrangian perspective。它能看見哪些原本看不見的東西？最經典的案例是人臉脈搏。當血液流經臉部時，皮膚顏色會產生非常細微的週期性變化，人眼通常無法直接察覺，但 EVM 可以將這些變化放大，使臉部血流造成的顏色變化變得可視化。除了生理訊號，EVM 也能用於微小運動的觀察。例如橋樑或吊車在風中的細微搖晃、機械結構的振動等，都屬於可能被放大的時間變化。 2012 年的原始 EVM 常被稱為 linear EVM，適合用來放大顏色變化與小幅度運動。後續 MIT 團隊在 2013 年 SIGGRAPH 發表 Phase-Base...

閱讀完整內容

Diffusion Models研究(1)_Python用 FramePack將Image 轉換為Video(最高支援 60 秒)

- 4月 25, 2026

使用官方論文研究作者釋出的github來實驗 https://github.com/lllyasviel/FramePack.git 於 2025 年 4 月發表之論文中的 FramePack 提出一種神經網路結構 FramePack，用以訓練下一幀（或下一幀區段）預測的影片生成模型。 Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models https://arxiv.org/abs/2504.12626 在過去既有舊方法中，隨著影片變長，先前影格的記憶會逐漸被遺忘，且誤差會持續累積有漂移等問題。為了應對這些問題，FramePack 採用了能在保持計算負擔恆定的同時強化記憶能力的創新方法。以 Transformer 為基礎的模型中，隨著輸入影格數增加，Attention 的計算量呈二次方成長，限制了對長片段影片的可擴展性。 FramePack 以逐幀重要性壓縮輸入影格上下文，使得在固定的上下文長度內可編碼更多影格，且重要性較高的影格會擁有更長的上下文。影格重要性可使用時間接近度、特徵相似度或混合度量來衡量。此打包方法允許在推論時處理數千幀影格，並在訓練時使用相對較大的批次大小。傳統的影格生成是依時間順序進行，因此容易累積誤差。 FramePack 引入了以下新的取樣方式主要是先生成最開始與最後的影格（端點），然後在參照前後文脈的情況下填補中間影格。因為能夠利用雙向的上下文，能維持穩定的影像品質。使用者指定的初始影格（靜止影像）作為高品質錨點，並以逆序生成未來影格，同時逐步讓影格貼近初始影格。對 Image-to-Video 任務特別有效。作為補充技術，由於以錨點生成與逆序生成會使時間軸出現不連續，因此會校正 RoPE（Rotary Position Embedding）的相位，以確保時間資訊的一致性。可以觀察到生成動畫稍微有些不合預期邏輯這裡用的圖去生成20秒的影片 https://www.pakutaso.com/20250450107post-52239.html https://user0514.cdnw.net/shared/img/thumb/nozaki10A7448_TP_V.jpg 人沒有跳上馬而...

閱讀完整內容

Study

- 4月 24, 2026

https://www.cc.ntu.edu.tw/chinese/epaper/home/20210920_005808.html# https://leemeng.tw/how-to-generate-interesting-text-with-tensorflow2-and-tensorflow-js.html https://leemeng.tw/gpt2-language-model-generate-chinese-jing-yong-novels.html https://newsletters.raven.tw/p/ep-4-ai https://ailearning.apachecn.org/dl/Word2Vec/ 重製權指透過印刷、複印、錄音、錄影、攝影、筆錄或其他方法直接、間接、永久或暫時的重複製作（著作權法第3條[1]）。 https://www.legis-pedia.com/dictionary/41 文化部AI指引全解析：創作者必看！搞懂AI著作權、風格模仿與法律風險 https://vocus.cc/article/689153f0fd8978000160ff47 網頁爬蟲的相關法律責任 https://vocus.cc/article/63dfb1fcfd897800014589b4

閱讀完整內容

Smashwords TERMS OF SERVICE (Updated March 10, 2026)

- 4月 23, 2026

https://www.smashwords.com/about/tos 1. Smashwords Overview By utilizing the services of Smashwords, you agree that you and your designated agents, if any (personal assistants as well as any automated spiders, bots, and AI agents operating on your behalf), agree to abide by this Agreement. Without limiting other remedies we may have, violations of these Terms may lead to account suspension, reversed purchases, reporting to law enforcement, litigation or other technical and legal steps necessary to protect Smashwords and its other users. If you do not agree with these Terms, please do not use the service. 2. General Smashwords Matters 2d. DRM-free ebooks. The books at Smashwords do not include digital rights management (DRM) copy protection ; this means you can enjoy Smashwords books on any epub-compatible e-reading device or app now or in the future. With DRM copy protection absent from all Smashwords books, authors and publishers who provided these books are trusting you, the S...

閱讀完整內容

自然語言NER(Named Entity Recognition)_命名實體識別

- 4月 19, 2026

https://www.geeksforgeeks.org/nlp/named-entity-recognition/ 命名實體識別（Named Entity Recognition, NER）是一種從一段自然語言文本中找出相關實體，並標注出其位置以及類型的NLP技術。是 NLP 中一項基本性的關鍵任務是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎，被廣泛應用在自然語言處理領域。命名實體分類命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體，通常包括人名、地名、機構名、日期時間、專有名詞等。一般學術領域 : NER 所涉及的命名實體一般包括 3 大類（實體類、時間類、數字類）和 7 小類（人名、地名、組織機構名、時間、日期、貨幣、百分比）實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可，一些系統還會給出專有名詞結果（比如縮寫、會議名、產品名等）。另外，在一些應用場景下會給出特定領域內的實體，如書名、歌曲名、期刊名等。 NER的標註類型在進行NER時候，通常需要對每個字做標註，中文為單一個字，英文則是用單詞，空格分隔。標註的標籤分類通常如下表類型說明 B Begin ，代表實體片段的開始 I Intermediate ，代表實體片段的中間 M Middle ，代表實體片段的中間 E End ，代表實體片段的結束 S Single ，代表實體片段為單個字 O Other ，代表字符不為任何實體套用上述表格規則就會如下 https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087 https://www.sciencedirect.com/science/article/pii/S0925231221016581 NER Tag Encoding分類 https://www.baeldung.com/cs/ner-nlp#bd-ner-tag-encoding 1.三位序列標註法(BIO) B 表示一個詞的詞首位置 I 表示「內部」（實體中非起始的詞） O 代表「外部」（不屬於任何實體的詞）在 BIO 編碼中...

閱讀完整內容