發表文章

歐拉影片放大技術研究_Eulerian Video Magnification, EVM_捕捉影片中肉眼看不見的微小變化(工業設備異常檢測?)

圖片
  你是否想過,一段看起來靜止的普通影片,其實可能藏著人眼難以察覺的脈搏、心跳、呼吸、機械震動或結構晃動?有沒有辦法透過非接觸式的訊號捕抓這些肉眼看不明顯的微小震動方案呢? Eulerian Video Magnification,簡稱 EVM,中文常譯為歐拉影像放大或歐拉影片放大,正是一種用來把影片中微小變化「放大到看得見」的電腦視覺技術。 MIT CSAIL 的研究團隊在 2012 年 SIGGRAPH 發表了經典論文 Eulerian Video Magnification for Revealing Subtle Changes in the World 目標是揭露普通影片中肉眼難以看見的時間變化。 https://people.csail.mit.edu/mrub/evm/ https://people.csail.mit.edu/mrub/papers/vidmag.pdf 什麼是歐拉影像放大? 歐拉影像放大的核心概念很直覺:輸入一段普通影片,先對每一幀影像做空間分解,再針對時間軸上的像素變化做濾波,最後把特定頻率範圍內的微小變化放大,讓原本看不見的變化變得明顯。MIT 專案頁明確說明,這個方法會對影片做 spatial decomposition、temporal filtering,然後將訊號放大以揭露隱藏資訊。 簡單而言,EVM 並非傳統物件追蹤那樣一路追著某個點跑,而是站在固定影像位置上,觀察每個像素或區域隨時間產生的顏色、亮度或相位變化。這也是它被稱為「Eulerian」的原因:它借用了流體力學中 Eulerian perspective 的觀念,也就是在固定位置觀察變化,而不是跟著物體移動的 Lagrangian perspective。 它能看見哪些原本看不見的東西? 最經典的案例是人臉脈搏。當血液流經臉部時,皮膚顏色會產生非常細微的週期性變化,人眼通常無法直接察覺,但 EVM 可以將這些變化放大,使臉部血流造成的顏色變化變得可視化。 除了生理訊號,EVM 也能用於微小運動的觀察。例如橋樑或吊車在風中的細微搖晃、機械結構的振動等,都屬於可能被放大的時間變化。 2012 年的原始 EVM 常被稱為 linear EVM,適合用來放大顏色變化與小幅度運動。 後續 MIT 團隊在 2013 年 SIGGRAPH 發表 Phase-Base...

Diffusion Models研究(1)_Python用 FramePack將Image 轉換為Video(最高支援 60 秒)

圖片
使用官方論文研究作者釋出的github來實驗  https://github.com/lllyasviel/FramePack.git 於 2025 年 4 月發表之論文中的 FramePack 提出一種神經網路結構 FramePack,用以訓練下一幀(或下一幀區段)預測的影片生成模型。 Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models https://arxiv.org/abs/2504.12626 在過去既有舊方法中,隨著影片變長,先前影格的記憶會逐漸被遺忘,且誤差會持續累積有漂移等問題。為了應對這些問題,FramePack 採用了能在保持計算負擔恆定的同時強化記憶能力的創新方法。 以 Transformer 為基礎的模型中,隨著輸入影格數增加,Attention 的計算量呈二次方成長,限制了對長片段影片的可擴展性。 FramePack 以逐幀重要性壓縮輸入影格上下文,使得在固定的上下文長度內可編碼更多影格,且重要性較高的影格會擁有更長的上下文。 影格重要性可使用時間接近度、特徵相似度或混合度量來衡量。 此打包方法允許在推論時處理數千幀影格,並在訓練時使用相對較大的批次大小。 傳統的影格生成是依時間順序進行,因此容易累積誤差。 FramePack 引入了以下新的取樣方式 主要是先生成最開始與最後的影格(端點),然後在參照前後文脈的情況下填補中間影格。因為能夠利用雙向的上下文,能維持穩定的影像品質。 使用者指定的初始影格(靜止影像)作為高品質錨點,並以逆序生成未來影格,同時逐步讓影格貼近初始影格。對 Image-to-Video 任務特別有效。 作為補充技術,由於以錨點生成與逆序生成會使時間軸出現不連續,因此 會校正 RoPE(Rotary Position Embedding)的相位,以確保時間資訊的一致性。 可以觀察到生成動畫稍微有些不合預期邏輯 這裡用的圖去生成20秒的影片 https://www.pakutaso.com/20250450107post-52239.html https://user0514.cdnw.net/shared/img/thumb/nozaki10A7448_TP_V.jpg 人沒有跳上馬而...

Study

 https://www.cc.ntu.edu.tw/chinese/epaper/home/20210920_005808.html# https://leemeng.tw/how-to-generate-interesting-text-with-tensorflow2-and-tensorflow-js.html https://leemeng.tw/gpt2-language-model-generate-chinese-jing-yong-novels.html https://newsletters.raven.tw/p/ep-4-ai https://ailearning.apachecn.org/dl/Word2Vec/ 重製權 指透過印刷、複印、錄音、錄影、攝影、筆錄或其他方法直接、間接、永久或暫時的重複製作(著作權法第3條[1])。 https://www.legis-pedia.com/dictionary/41 文化部AI指引全解析:創作者必看!搞懂AI著作權、風格模仿與法律風險 https://vocus.cc/article/689153f0fd8978000160ff47 網頁爬蟲的相關法律責任 https://vocus.cc/article/63dfb1fcfd897800014589b4

Smashwords TERMS OF SERVICE (Updated March 10, 2026)

  https://www.smashwords.com/about/tos 1. Smashwords Overview By utilizing the services of Smashwords, you agree that you and your designated agents, if any (personal assistants as well as any automated spiders, bots, and AI agents operating on your behalf), agree to abide by this Agreement. Without limiting other remedies we may have, violations of these Terms may lead to account suspension, reversed purchases, reporting to law enforcement, litigation or other technical and legal steps necessary to protect Smashwords and its other users. If you do not agree with these Terms, please do not use the service. 2. General Smashwords Matters 2d. DRM-free ebooks. The books at Smashwords do not include digital rights management (DRM) copy protection ; this means you can enjoy Smashwords books on any epub-compatible e-reading device or app now or in the future. With DRM copy protection absent from all Smashwords books, authors and publishers who provided these books are trusting you, the S...

自然語言NER(Named Entity Recognition)_命名實體識別

圖片
https://www.geeksforgeeks.org/nlp/named-entity-recognition/ 命名實體識別(Named Entity Recognition, NER) 是一種從一段自然語言文本中找出相關實體,並標注出其位置以及類型的NLP技術。 是 NLP 中一項基本性的關鍵任務 是關係抽取、事件抽取、知識圖譜、信息提取、問答系統、句法分析、機器翻譯等諸多 NLP 任務的基礎,被廣泛應用在自然語言處理領域。 命名實體分類 命名實體 : 一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、專有名詞等。 一般學術領域 : NER 所涉及的命名實體一般包括 3 大類(實體類、時間類、數字類)和 7 小類(人名、地名、組織機構名、時間、日期、貨幣、百分比) 實際真實工作產品場景 : 通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、會議名、產品名等)。另外,在一些應用場景下會給出特定領域內的實體,如書名、歌曲名、期刊名等。 NER的標註類型 在進行NER時候,通常需要對每個字做標註,中文為單一個字,英文則是用單詞,空格分隔。 標註的標籤分類通常如下表 類型 說明 B Begin ,代表實體片段的開始 I Intermediate ,代表實體片段的中間 M Middle ,代表實體片段的中間 E End ,代表實體片段的結束 S Single ,代表實體片段為單個字 O Other ,代表字符不為任何實體 套用上述表格規則就會如下 https://www.researchgate.net/figure/Tags-for-Named-Entity-Recognition-using-IOB2-format_tbl3_336206087 https://www.sciencedirect.com/science/article/pii/S0925231221016581 NER Tag Encoding分類 https://www.baeldung.com/cs/ner-nlp#bd-ner-tag-encoding 1.三位序列標註法(BIO) B 表示一個詞的詞首位置 I  表示「內部」(實體中非起始的詞) O 代表「外部」(不屬於任何實體的詞) 在 BIO 編碼中...

關於訓練的相關訴訟歷史事件

  Dirty Secrets of BookCorpus, a Key Dataset in Machine Learning https://medium.com/data-science/dirty-secrets-of-bookcorpus-a-key-dataset-in-machine-learning-6ee2927e8650 ChatGPT 数据集之谜 https://cloud.tencent.com/developer/article/2222858 台大生因語料訓練資料遭中央社提告!AI訓練在台灣的兩難 https://meet.bnext.com.tw/articles/view/52486? 作家起訴OpenAI 文本成為訓練素材 https://stli.iii.org.tw/news2019-detail.aspx?d=534&no=57 訓練 AI 模型的著作權風險:當資料成為兵家必爭之地,台灣有何策略? https://naipnews.naipo.com/6706/ 用百萬本書訓練AI犯不犯法?Claude母公司獲「合理使用」勝利判決,但用盜版書部分還是得罰 https://www.thenewslens.com/article/254890 美國法官判決Anthropic以版權書籍來訓練AI模型屬於合理使用 https://www.ithome.com.tw/news/169713 【著作權】AI 讀書犯法?從Google 封鎖Anna′s Archive 看「知識自由」的法律紅線 https://sbir.org.tw/ipcc/news_content?id=12284&page=3

使用Pytorch實作RCNN_何謂IoU?何謂SelectiveSearch?

圖片
https://medium.com/nerd-for-tech/research-summary-object-detection-upto-fast-rcnn-43d5944f4f6f RCNN (Regions with CNN features) 首先輸入一張影像 後續透過SelectiveSearch生成一些候選框Region proposals(至多2000個) warped region=>主要是影像預處理,可能作揖些縮放到同樣大小的處理。 當時論文採用的是VGG16方式來對2000個框做特徵提取,依此十分耗時。 最終做分類則是採用SVM 而Bounding-box部分採用回歸方式處理 平均一張影像在Nvidia K40 GPU要耗費47秒 https://github.com/ChouSamuel/Pytorch-RCNN-/blob/main/RCNN%E5%AF%A6%E4%BD%9C.ipynb