Spatia 可更新空間的影片生成

Spatia,一個感知空間記憶的視頻生成框架,它將三維場景點雲顯式地保存為持久的空間記憶。 Spatia 基於此空間記憶迭代生成影片片段,並透過視覺 SLAM 不斷更新它。這種動態-靜態解耦設計增強了整個生成過程中的空間一致性,同時保持了模型生成逼真動態實體的能力。此外,Spatia 支援顯式相機控制和三維感知互動式編輯等應用,為可擴展的、記憶驅動的視訊生成提供了一個基於幾何基礎的框架。

Categories: 香港科技大學, 視頻模型

Meta 推出開源 SAM 音訊

Meta 的 SAM Audio 是首個統一的多模態模型,能從複雜音頻或視頻中精準分離特定聲音。

SAM Audio 支持文字提示(如「狗叫聲」或「人聲」)、視覺選擇(如點擊視頻中樂手)或時間範圍提示,來隔離目標聲音並生成殘餘音頻。 它適用於音樂、語音和一般環境音,超越傳統單一工具。

模型基於 Flow-Matching Diffusion Transformer,在 DAC-VAE 潛在空間運作,提供小(500M 參數)、基(1B)和大(3B)版本。 它能同時生成目標與殘餘音軌,支援真實世界場景如去除背景噪音。

Categories: 開源, 聲效, Python



InfCam 攝影機 outpaint 控制

InfCam,一個無需深度資訊、攝影機控制的視訊生成框架,能夠實現高姿態保真度。該框架整合了兩個關鍵組件:

架構包含同次引導自注意力層(homography-guided self-attention),輸入源視頻、目標及變換潛在表示與相機嵌入,確保時間對齊與旋轉感知推理。 變換模塊處理旋轉後添加平移嵌入,將重投影簡化為相對於無限遠平面的視差估計,提升軌跡忠實度。

透過增強 MultiCamVideo 數據集生成 AugMCV,引入多樣初始姿態與焦距軌跡,解決現有 SynCamVideo 等數據集偏差。

實驗結果表明,在 AugMCV 與 WebVid 數據集上,InfCam 在相同/不同內參情境下,於姿態準確度與視覺保真度皆優於基準,尤其在真實世界數據泛化表現突出。

Categories: 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

RePlan 圖像編輯框架

RePlan 是一個基於指令的圖像編輯框架,專門解決指令-視覺複雜度(IV-Complexity)挑戰,透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略:VLM 規劃器透過逐步推理分解複雜指令,生成邊界框與區域提示;編輯器使用無訓練注意力區域注入機制,支援單次多區域並行編輯,避免迭代 inpainting。

Categories: 香港中文大學, 香港科技大學, 開源, 騰訊, 影像模型, 影像處理, Python, 新聞




蘋果開源SHARP AI模型,將照片轉換為3D場景

Apple 開源的 SHARP 能讓你輸入單張 2D 圖片,輸出場景的 3D Gaussian 表示(3DGS),可以之後用 3D Gaussian splatting 實時渲染不同視角。這個推論過程在標準 GPU 上小於一秒完成。

SHARP 能產生的 3D 表示是有公尺尺度的 metric representation,所以可以支援具物理意義的相機移動,而不是純視覺特效式的視差

Apple's SHARP Computer Vision Model - Install and Run Locally
Categories: 開源, 影像模型, 影像處理

Page 1 of 59
1 2 3 59