Spatia,一個感知空間記憶的視頻生成框架,它將三維場景點雲顯式地保存為持久的空間記憶。 Spatia 基於此空間記憶迭代生成影片片段,並透過視覺 SLAM 不斷更新它。這種動態-靜態解耦設計增強了整個生成過程中的空間一致性,同時保持了模型生成逼真動態實體的能力。此外,Spatia 支援顯式相機控制和三維感知互動式編輯等應用,為可擴展的、記憶驅動的視訊生成提供了一個基於幾何基礎的框架。
Meta 推出開源 SAM 音訊
DreaMontage – 一鏡到底
DreaMontage 是一個由 ByteDance 開發的開源 AI 影片生成框架,專注於「任意幀引導的一鏡到底」(one-shot)長影片合成,能從多個圖片或短片片段自動產生連貫、流暢的敘事影片。
SemanticGen 加入語意生成影片
SemanticGen 首先在高層語義空間中生成視頻,然後在 VAE 潛在空間中細化細節。SemanticGen 的核心觀點是,鑑於影片中固有的大量冗餘訊息,視訊生成應首先在緊湊的語義空間中進行全局規劃,然後再添加高頻細節——而不是直接對大量的底層視訊標記進行建模。
InfCam 攝影機 outpaint 控制
InfCam,一個無需深度資訊、攝影機控制的視訊生成框架,能夠實現高姿態保真度。該框架整合了兩個關鍵組件:
架構包含同次引導自注意力層(homography-guided self-attention),輸入源視頻、目標及變換潛在表示與相機嵌入,確保時間對齊與旋轉感知推理。 變換模塊處理旋轉後添加平移嵌入,將重投影簡化為相對於無限遠平面的視差估計,提升軌跡忠實度。
透過增強 MultiCamVideo 數據集生成 AugMCV,引入多樣初始姿態與焦距軌跡,解決現有 SynCamVideo 等數據集偏差。
實驗結果表明,在 AugMCV 與 WebVid 數據集上,InfCam 在相同/不同內參情境下,於姿態準確度與視覺保真度皆優於基準,尤其在真實世界數據泛化表現突出。
RePlan 圖像編輯框架
RePlan 是一個基於指令的圖像編輯框架,專門解決指令-視覺複雜度(IV-Complexity)挑戰,透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略:VLM 規劃器透過逐步推理分解複雜指令,生成邊界框與區域提示;編輯器使用無訓練注意力區域注入機制,支援單次多區域並行編輯,避免迭代 inpainting。

PersonaLive 安裝教學 (12G VRAM)
影片將一步步帶你上手 PersonaLive,教你如何使用 AI 即時角色變換,在直播或影片中實現即時變身效果,全流程免費。
Qwen Image Edit 2511 教學
在本機用 ComfyUI 跑 Qwen Image Edit 2511,包含 BF16、FP8 和 GGUF 量化版本,以及 Lightning 4‑step LoRA 的完整實戰示範。
輕鬆製作超逼真 AI 說話頭像影片
InfiniteTalk 完全免費、支援長影片,唇同步自然但需調參避免誇張;HeyGen 更親民但付費,兩者差異不大,InfiniteTalk 性價比高。 適合 IT 顧問用於快速製作教程或演示影片,節省攝影成本。