musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA(低秩自適應)模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器:一个LoRA,通吃image和edit模型,完美解决角色一致性!

Categories: 開源, 模型訓練


Chrome MCP 伺服器

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的
模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,
Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

ai 编程测试, chrome mcp server ,自动化必备,web 开发必备工具!
Categories: 開源, MCP, 編程, Mac, Win, Linux

CWM 320 億參數 (32B) 的代碼推理模型

CWM 由 Meta 開發,是個 320 億參數 (32B) 的密集自回歸解碼器語言模型(dense decoder-only autoregressive LLM)

特別強調如何建模與推理「程式和指令」對環境狀態的影響,被設計為能理解 agentic workflow(即 LLM 與計算環境互動過程中的軌跡)

專注於程式合成與程式理解、代碼推理等研究相關任務。不適合拿來做常規知識問答、閒聊助理、或生產環境 AI。(相關論文) (GitHub

Meta's Code World Model
Categories: 開源, 編程

Wan-Animate:統一角色動畫及整體替換

Wan-Animate,一個用於角色動畫和替換的統一框架。給定一張角色圖像和一段參考視頻,Wan-Animate 可以透過精確複製視頻中角色的表情和動作來為角色製作動畫,從而產生高保真度的角色視頻。或者,它可以將動畫角色整合到參考影片中替換原始角色,複製場景的光線和色調,實現與環境的無縫融合。

Categories: 開源, 阿里巴巴, 視頻模型


NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架,用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新,在 NVIDIA 改進的資料管理流程的支持下,實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM,建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間
Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

教學:

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)
Categories: 開源, 視頻模型, 教學, Linux, 影像處理


Spec Kit:AI 驅動的規範導向開發工具包

Screenshot

Spec Kit 是一個由 GitHub 開發並開源的工具包,旨在透過 規範導向開發(Spec-Driven Development) 來幫助開發者更快速地建構高品質的軟體。

這套工具顛覆了傳統的開發模式,將規格文件從靜態的藍圖轉變為可執行的程式碼。它以用戶或產品的意圖為核心,利用了先進的 AI 模型建立清晰且詳細的規格,步優化和完善開發流程,最後直接生成可運作的軟體。

Categories: 編程, Vibe Coding

HuMo:文本、圖片和音訊三種輸入

HuMo 是一個以人類為核心的多模態條件影片生成框架,能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

  • 支援 文本-圖片文本-音訊 及 文本-圖片-音訊 的多模態影片生成,可自由設計角色造型、服裝、道具和場景。
  • 文字指令的高遵循度、角色連貫性,以及音訊帶動的動作同步。
  • 可生成 480P 或 720P 的高規格影片,並支援多 GPU 計算。

快速安裝及使用

  • 透過 Conda 及 pip 安裝相關依賴(Python 3.11、Torch 2.5.1 等),並下載模型檔。
  • 支援直接輸入文本、參考圖片和音訊檔案,根據三種模式(TA、TIA)選擇推理腳本運行生成。

Categories: 字節跳動, 開源, 數字人, 視頻模型

Page 1 of 55
1 2 3 55