第25個冬天

發表文章

目前顯示的是有「Diffusion Models」標籤的文章

Diffusion Models研究(1)_Python用 FramePack將Image 轉換為Video(最高支援 60 秒)

- 4月 25, 2026

使用官方論文研究作者釋出的github來實驗 https://github.com/lllyasviel/FramePack.git 於 2025 年 4 月發表之論文中的 FramePack 提出一種神經網路結構 FramePack，用以訓練下一幀（或下一幀區段）預測的影片生成模型。 Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models https://arxiv.org/abs/2504.12626 在過去既有舊方法中，隨著影片變長，先前影格的記憶會逐漸被遺忘，且誤差會持續累積有漂移等問題。為了應對這些問題，FramePack 採用了能在保持計算負擔恆定的同時強化記憶能力的創新方法。以 Transformer 為基礎的模型中，隨著輸入影格數增加，Attention 的計算量呈二次方成長，限制了對長片段影片的可擴展性。 FramePack 以逐幀重要性壓縮輸入影格上下文，使得在固定的上下文長度內可編碼更多影格，且重要性較高的影格會擁有更長的上下文。影格重要性可使用時間接近度、特徵相似度或混合度量來衡量。此打包方法允許在推論時處理數千幀影格，並在訓練時使用相對較大的批次大小。傳統的影格生成是依時間順序進行，因此容易累積誤差。 FramePack 引入了以下新的取樣方式主要是先生成最開始與最後的影格（端點），然後在參照前後文脈的情況下填補中間影格。因為能夠利用雙向的上下文，能維持穩定的影像品質。使用者指定的初始影格（靜止影像）作為高品質錨點，並以逆序生成未來影格，同時逐步讓影格貼近初始影格。對 Image-to-Video 任務特別有效。作為補充技術，由於以錨點生成與逆序生成會使時間軸出現不連續，因此會校正 RoPE（Rotary Position Embedding）的相位，以確保時間資訊的一致性。可以觀察到生成動畫稍微有些不合預期邏輯這裡用的圖去生成20秒的影片 https://www.pakutaso.com/20250450107post-52239.html https://user0514.cdnw.net/shared/img/thumb/nozaki10A7448_TP_V.jpg 人沒有跳上馬而...

閱讀完整內容