HuMo 是一個以人類為核心的多模態條件影片生成框架,能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色
- 支援 文本-圖片、文本-音訊 及 文本-圖片-音訊 的多模態影片生成,可自由設計角色造型、服裝、道具和場景。
- 文字指令的高遵循度、角色連貫性,以及音訊帶動的動作同步。
- 可生成 480P 或 720P 的高規格影片,並支援多 GPU 計算。
UniVerse-1 是個類似 Veo-3 的模型,可根據參考圖像和文字提示同時產生同步音訊和視訊。
opencode 是一個基於終端機的 AI 工具,專注於協助開發者在終端機環境中進行編碼、除錯等任務。它提供了一個互動式的終端使用者介面(TUI),並支援多種 AI 模型和語言伺服器協議(LSP),以提供程式碼智能功能。
不同於其他工具(如 Claude Code),opencode 不依賴特定 AI 提供商,支援超過 75 個大型語言模型(LLM)提供商,包括 OpenAI、Anthropic Claude、Google Gemini、AWS Bedrock、Groq、Azure OpenAI 等,甚至支援本地模型。
DeepCode 是個 AI 驅動的開發平台,可自動執行程式碼產生和實作任務。我們的多代理系統能夠處理將需求轉化為功能齊全、結構良好的程式碼的複雜性,讓您專注於創新,而不是實現細節。
DeepCode 透過為常見的開發任務提供可靠的自動化來解決這些工作流程效率低下的問題,從而簡化從概念到程式碼的開發工作流程。
https://github.com/HKUDS/DeepCode
模型上下文協定 (MCP) 伺服器為 AI 輔助軟體開發提供結構化的規範驅動的開發工作流程工具,具有即時 Web 儀表板和 VSCode 擴展,可直接在開發環境中監控和管理專案進度。
https://github.com/Pimzino/spec-workflow-mcp
Sim Studio 是個輕量、直觀的開源項目及平台,專注於建構和部署基於大型語言模型(LLM)的 AI 代理工作流程。其核心目標是簡化複雜的 AI 代理開發過程,特別是多步驟代理系統的設計與調試。Sim 提供了一個用戶友好的界面,允許開發者通過拖放式工作流程快速構建和整合 AI 功能,並與多種工具(如 GitHub)進行無縫連接。
它提供雲端託管選項(可在 https://sim.ai 使用),以及多種自託管方式,包括 NPM 套件、Docker Compose、Dev Containers 和手動設定。平台支援使用 Ollama 運行本地 AI 模型(可選擇 GPU 或 CPU),並利用向量嵌入來實現知識庫和語義搜尋等功能。開發環境主要基於 JavaScript 運行時 Bun,並需配置 PostgreSQL 資料庫(含 pgvector 擴充)。
VibeVoice 是一個開源,能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型,它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架,特別適用於生成播客等長篇、多說話者的對話音訊。
VibeVoice 的核心創新之一,在於其採用了連續語音分詞器(聲學和語義),並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度,同時顯著提升處理長序列的計算效率。此外,VibeVoice 採用了「下一詞元擴散」框架,巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程,再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音,並支援多達 4 位不同的說話者,遠超許多先前模型通常僅限於 1-2 位說話者的限制。
(more…)MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧,例如 MiniCPM-V 2.0 僅有 2.4B 參數,而更新的 MiniCPM-V 2.4 則為 2.8B 參數,它們卻能展現出足以媲美甚至超越許多大型模型的實力,例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性,使得 MiniCPM-V 在部署上更具彈性,降低了運算資源的需求,為更廣泛的應用場景開啟了大門。
MiniCPM-V 系列在多項關鍵能力上表現出色,尤其在 OCR(光學字元辨識)、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊,還能有效地識別圖像中的物件,並進一步進行高層次的語義理解與推理。例如,MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度,而 MiniCPM-V 2.4 更將其提升至 768×768 像素,確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析,還是需要深度圖像理解的應用,MiniCPM-V 都能提供可靠的解決方案。此外,該模型還支援多語言能力,進一步擴展了其全球應用的潛力。
MAI-Voice-1 是一種速度極快的語音生成模型,能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻,使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1,您可以在那裡試用富有表現力的演講和故事演示。想像一下,只需一個簡單的提示,您就可以創作一個「選擇你自己的冒險」故事,或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧!
微軟從巨型模型到輕量級智慧,創新雙管齊下。正積極推動其基礎模型(foundation models)的創新,並為此推出了兩款重要的內部開發模型:超大型的 MAI-1,以及輕巧高效的 Phi-3 系列模型,展現了其在AI策略上的深遠佈局。