發表文章

目前顯示的是有「python」標籤的文章

Diffusion Models研究(1)_Python用 FramePack將Image 轉換為Video(最高支援 60 秒)

圖片
使用官方論文研究作者釋出的github來實驗  https://github.com/lllyasviel/FramePack.git 於 2025 年 4 月發表之論文中的 FramePack 提出一種神經網路結構 FramePack,用以訓練下一幀(或下一幀區段)預測的影片生成模型。 Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models https://arxiv.org/abs/2504.12626 在過去既有舊方法中,隨著影片變長,先前影格的記憶會逐漸被遺忘,且誤差會持續累積有漂移等問題。為了應對這些問題,FramePack 採用了能在保持計算負擔恆定的同時強化記憶能力的創新方法。 以 Transformer 為基礎的模型中,隨著輸入影格數增加,Attention 的計算量呈二次方成長,限制了對長片段影片的可擴展性。 FramePack 以逐幀重要性壓縮輸入影格上下文,使得在固定的上下文長度內可編碼更多影格,且重要性較高的影格會擁有更長的上下文。 影格重要性可使用時間接近度、特徵相似度或混合度量來衡量。 此打包方法允許在推論時處理數千幀影格,並在訓練時使用相對較大的批次大小。 傳統的影格生成是依時間順序進行,因此容易累積誤差。 FramePack 引入了以下新的取樣方式 主要是先生成最開始與最後的影格(端點),然後在參照前後文脈的情況下填補中間影格。因為能夠利用雙向的上下文,能維持穩定的影像品質。 使用者指定的初始影格(靜止影像)作為高品質錨點,並以逆序生成未來影格,同時逐步讓影格貼近初始影格。對 Image-to-Video 任務特別有效。 作為補充技術,由於以錨點生成與逆序生成會使時間軸出現不連續,因此 會校正 RoPE(Rotary Position Embedding)的相位,以確保時間資訊的一致性。 可以觀察到生成動畫稍微有些不合預期邏輯 這裡用的圖去生成20秒的影片 https://www.pakutaso.com/20250450107post-52239.html https://user0514.cdnw.net/shared/img/thumb/nozaki10A7448_TP_V.jpg 人沒有跳上馬而...

Python epub電子書檔案解析_中文斷句處理_以國家科幻叢書十一_機器人風波(The Soul of the Robot)為例

圖片
  此次實驗採用 好讀平台 上面的 書名:機器人風波(The Soul of the Robot) 作者: 巴靈頓・貝雷(Barrington J.Bayley) 譯者:王凱竹 https://www.haodoo.net/?M=Share&P=1010490641#gsc.tab=0 作者簡介: 巴靈頓.貝雷 出生於英國伯明翰,一九六零年代科幻小說新浪潮運動在英國的推手之一。 寫作風格憂鬱、陰沉,影響後來多名英國科幻作家。 這個平台的定位有點類似台灣版本的 日本青空文庫 青空文庫是蒐集了日本國內著作權已經進入公有領域的文學作品的數位圖書館。 程式碼範例ver1. """ 【免責聲明 / Disclaimer】 1. 本程式僅供技術研究與學術交流使用,不保證程式碼完全無誤或適用於特定商業目的。 This code is for technical research and academic exchange only. There is no guarantee of accuracy or fitness for any particular purpose. 2. 使用者應確保所處理之 EPUB 檔案具備合法授權。本程式作者不承擔因非法使用版權 作品(如未經授權之重製、散佈或進行機器學習訓練)所產生之法律責任。 Users are responsible for ensuring they have legal authorization for the EPUB files. The author assumes no liability for legal issues arising from unauthorized use of copyrighted works (e.g., reproduction, distribution, or ML training). 3. 請遵守相關著作權法規。針對已受版權保護之作品,建議僅在「合理使用」範圍內操作。 Please comply with copyright laws. For protected works, operations should be limited to the sco...

Windows作業系統環境下安裝Ruby_Wikipedia語料庫截取純文本wp2txt_WikiExtractor_gensim解析讀取wiki資料

圖片
Ruby預設環境會有類似node.js的npm install的cli  (定位就跟微軟開發者在用的nuget差不多、或python的pip install....) 叫做gem 相關Ruby開源套件貢獻者會在此網站平台做釋出 https://rubygems.org/ 在一些自然語言語料庫收集任務最為知名的就是維基百科 https://dumps.wikimedia.org/ 當然要注意的是wikimedia有對下載者進行了速率限制,並將每個 IP 位址的連線數上限設為 3 個。目的是確保每個人都能以合理的下載速度存取檔案。 在這邊要從官方網站的Database backup dumps進去 也就是所有跨語言的公開WIKI媒體資料完整副本,以嵌入 XML 的維基文本來源檔案和元資料形式提供。 官方有釋出dumps出來的文本壓縮檔無法直接解析需要特殊前處理 https://dumps.wikimedia.org/backup-index.html 看 Wikipedia 網域抓語言代碼: https://en.wikipedia.org/ → enwiki https://zh.wikipedia.org/ → zhwiki https://ja.wikipedia.org/ → jawiki 比方說 日本語言的最新dumps資料網址 https://dumps.wikimedia.org/jawiki/latest/ 英文語言的最新dumps資料網址 https://dumps.wikimedia.org/enwiki/latest/ https://dumps.wikimedia.org/enwiki/20260201/ 中文語言的最新dumps資料網址 https://dumps.wikimedia.org/zhwiki/latest/ https://dumps.wikimedia.org/zhwiki/20260201/ 舉例這邊針對英文和中文各自bz2做下載 enwiki-latest-pages-articles.xml.bz2 zhwiki-latest-pages-articles.xml.bz2 wiki中文語料庫僅3GB相較英文WIKI的23.2G來的小很多 Solution1. wp2txt 剛好涉及到裝wp2txt https://...