InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻,同時保持音畫同步(lip‑sync + co‑speech gestures)。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同,我們的模型可以從靜態參考圖像中感知環境,並產生複雜的、文本引導的與物體的交互,同時保持高保真度的唇部同步。

雙流 Diffusion Transformer(DiT)架構:一個分支做「感知與互動規劃」(Perception and Interaction Module, PIM),負責理解圖片裡的物體位置與關係,並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」(Audio‑Interaction Aware Generation Module, AIM),把動作與語音融合成高品質視頻。

Categories: 騰訊, 影像模型, 影像處理, 數字人, 視頻模型, 開源

LongVie 2 – 可控超長影片生成

可控的超長影片生成是一項基礎但具有挑戰性的任務,因為現有的方法雖然對短片段有效,但由於時間不一致和視覺品質下降等問題而難以擴展。

LongVie 2 的核心設計可確保時間一致性:
1)統一雜訊初始化策略,在各個片段之間保持一致的生成;
2)全域控制訊號歸一化,可在整個視訊的控制空間中強制對齊。為了減輕視覺品質下降,LongVie 2 採用密集(例如深度圖)和稀疏(例如關鍵點)控制訊號,並輔以一種退化感知訓練策略,可以自適應地平衡模態貢獻以保持視覺品質。

LongVie 2 : Multimodal Controllable Ultra-Long Video World Model
Categories: NVIDIA, 多模態模型, 影像模型, 模型, 視頻模型, 開源

DreamActor-M2 基於時空上下文動畫

DreamActor-M2 是一個通用的角色圖像動畫框架,它將運動條件化重新定義為時空上下文學習任務。我們的設計利用了視訊基礎模型固有的生成先驗訊息,同時實現了從原始視訊直接進行無姿態、端到端運動遷移的關鍵演進。這種範式消除了明確姿態估計的需求,使得
DreamActor-M2 能夠在各種複雜場景中實現卓越的泛化能力和高保真度的結果。

Categories: 字節跳動, 影像模型, 影像處理, 視頻模型, 開源

SkinTokens 實現自動化骨骼綁定

SkinTokens 技術旨在自動化 3D 製作中繁瑣的「綁定」流程,解決傳統手動設置骨架與蒙皮權重的難題。其核心創新是將連續的蒙皮數據「標記化」,轉換為類似語言模型的離散代碼並有效壓縮。基於此開發的 TokenRig 框架利用生成式自回歸模型,能像寫文章般精確預測各種人類、動物或奇幻生物的運動結構。這項技術不僅具備高度通用性與精確度,更能應對複雜幾何形狀,實現高品質的自動化蒙皮與骨架生成,大幅提升動畫製作效率。

如果你是一位 3D 開發者、遊戲開發者或動畫師,這項技術可以大幅縮短你製作 3D 模型動畫準備工作的時間,並能跨多種不同類型的角色提供穩定、高品質的自動綁定結果。

Categories: 3D, 開源

VLS : 透過視覺語言模型引導預先訓練機器人策略

VLS(Vision-Language Steering)的具體作用是透過視覺語言模型(VLM)即時導向預訓練機器人策略,解決測試時的分布偏移,讓機器人在新環境中保持高成功率,而無需重新訓練。

VLS 針對預訓練擴散策略在空間變化(如新位置)或任務變化(如新物件)下的失效,提供無梯度、無訓練的適應機制,利用 VLM 生成可微分獎勵函數,注入去噪過程。
它將任務分解為順序階段(如「抓取」→「放置」),使用 3D 關鍵點獎勵,避免單一失敗導致整體崩潰。

場景無 VLS 成功率有 VLS 成功率提升幅度
任務擾動23%38%+15%
位置擾動24%35%+11%
真實廚房任務~50%85%+35%
Categories: 視覺模型, 開源, Robotic

ACE-Step v1.5 開源音樂基礎模型

ACE-Step v1.5 是一款高效的開源音樂基礎模型,可將商業級音樂生成功能帶到消費級硬體平台。在常用的評估指標上,ACE-Step v1.5 的音質超越了大多數商業音樂模型,同時速度極快——在 A100 上生成一首完整歌曲不到 2 秒,在 RTX 3090 上不到 10 秒。該模型可在本地運行,僅需不到 4GB 的顯存,並支援輕量級個人化:用戶只需幾首歌曲即可訓練 LoRa 來捕捉自己的音樂風格。實測結果:

(主歌1)
霓虹閃爍的訊號裡,我聽見你呼吸的頻率。數位心跳對齊節拍,在光的碎片裡相遇。
(Pre‑Chorus)
電流穿過沉默的夜,你的笑是程式裡的解。我追著節奏不回頭,感覺像永遠不會舊。
(副歌)
一起在AI夢裡跳,節拍讓我們燃燒。
電子浪潮衝破訊號,讓心越飄越高。
(橋段)
每一聲呼吸都在閃耀,每一行代碼都是心跳。你在那螢光雲端微笑,我在夢境裡呼喊你的名字。
(尾聲)
不論是現實或訊號,我們在節拍裡擁抱。夜的盡頭沒有停靠,只剩我們一起奔跑。
Categories: 開源, 音樂

OpenClaw (原名Clawdbot)

本週,網路上掀起了一股搶購 Mac mini 的熱潮,人們紛紛購買 Mac mini 來運行 Moltbot(原名Clawdbot)。 Moltbot 是一款開源的、可自行託管的AI代理,旨在充當個人助理。

Clawd 誕生於2025年11月-這是「Claude」加上「爪子」的巧妙雙關。一切都完美無缺,直到Anthropic的法務團隊禮貌地要求我們重新考慮。好吧,這很合理。

Moltbot 這個名字是接下來誕生的,它是在凌晨5點與社區成員在 Discord 上進行一場混亂的頭腦風暴後選定的。蛻皮象徵成長-龍蝦脫殼蛻皮,最終長成更大的生物。這個名字寓意深刻,但 念起來卻不太順口。

OpenClaw 就是我們的最終歸宿。這次,我們做了充分的準備:商標檢索結果清晰無誤,網域名稱已購買,遷移程式碼也已編寫完成。

短短48小時內,OpenClaw 在 GitHub 上就獲得了 12.3 萬顆星。彼得·斯坦伯格(Peter Steinberger)的周末計畫一度成為史上成長最快的開源人工智慧工具——直到安全研究人員檢查了其程式碼並發出警報。 OpenClaw 是一款開源的個人人工智慧助手,可在本地運行並連接到 WhatsApp、Slack、Discord和 iMessage 等應用程式。在2026年1月29日至31日期間,OpenClaw從默默無聞一躍成為擁有超過10萬顆星的開源人工智慧助理。開發者們欣喜若狂,終於可以擁有自己的人工智慧助手,而無需再從雲端服務供應商租用。然而,思科IBM 的安全專家卻稱之為 “一場噩夢”,並警告稱其存在API金鑰洩漏、提示注入攻擊和企業資料外洩的風險。

Categories: Agent, 開源

LingBot-world 高保真世界模型

LingBot-World 是一個專為交互式世界模型設計的開源框架。其核心 LingBot-World-Base 致力於提供高保真模擬與精准控制、且邏輯一致的模擬環境。該模型由一個可擴展數據引擎(Scalable Data Engine)驅動,通過從大規模遊戲環境中學習物理規律與因果關係,超越了傳統的被動式視頻合成,實現了與生成世界的交互。

LingBot-World 告別了隨機的“幻覺”式生成。它支持精細化的、由動作驅動的生成(action-conditioned generation),能夠精確響應用戶指令,渲染出高質量且符合物理真實感的動態場景。

Categories: 視頻模型, 開源, 世界模型

Moltbot = Clawdbot

Clawdbot 已於 2026 年 1 月 27 日更名為 Moltbot,因為 Anthropic 因商標相似(Claude)而要求變更。原 Clawdbot 是個人 AI 助理工具,支援多平台運行,現轉為 Moltbot,GitHub 移至 moltbot/moltbot,舊 clawdbot 組織重定向至新名稱。 軟體功能、程式碼與使用方式完全相同,僅品牌與帳號變更(吉祥物從 Clawd 改為 Molty)。

Categories: Agent, 開源

Clawdbot 安裝指南

Categories: Agent, 教學, 開源

Page 1 of 66
1 2 3 66