Infer News

VibeVoice：前沿開源文字轉語音模型

VibeVoice 是一個開源，能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型，它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架，特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一，在於其採用了連續語音分詞器（聲學和語義），並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度，同時顯著提升處理長序列的計算效率。此外，VibeVoice 採用了「下一詞元擴散」框架，巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程，再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音，並支援多達 4 位不同的說話者，遠超許多先前模型通常僅限於 1-2 位說話者的限制。

(more…)

Categories: 開源, 微軟, 語音

MiniCPM-V 4.5 視覺與語言結合

MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧，例如 MiniCPM-V 2.0 僅有 2.4B 參數，而更新的 MiniCPM-V 2.4 則為 2.8B 參數，它們卻能展現出足以媲美甚至超越許多大型模型的實力，例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性，使得 MiniCPM-V 在部署上更具彈性，降低了運算資源的需求，為更廣泛的應用場景開啟了大門。

MiniCPM-V 系列在多項關鍵能力上表現出色，尤其在 OCR（光學字元辨識）、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊，還能有效地識別圖像中的物件，並進一步進行高層次的語義理解與推理。例如，MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度，而 MiniCPM-V 2.4 更將其提升至 768×768 像素，確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析，還是需要深度圖像理解的應用，MiniCPM-V 都能提供可靠的解決方案。此外，該模型還支援多語言能力，進一步擴展了其全球應用的潛力。

MiniCPM-V 4.5: High-Refresh Rate Video Understanding MLLM

Watch this video on YouTube

(more…)

Categories: 開源, 視覺模型

MAI-Voice-1 微軟 AI 新紀元

MAI-Voice-1 是一種速度極快的語音生成模型，能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻，使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1，您可以在那裡試用富有表現力的演講和故事演示。想像一下，只需一個簡單的提示，您就可以創作一個「選擇你自己的冒險」故事，或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧！

微軟從巨型模型到輕量級智慧，創新雙管齊下。正積極推動其基礎模型（foundation models）的創新，並為此推出了兩款重要的內部開發模型：超大型的 MAI-1，以及輕巧高效的 Phi-3 系列模型，展現了其在AI策略上的深遠佈局。

Categories: 微軟, 模型, 語音

ROSE2025 移除影片中任何物件

ROSE2025，全名為「可靠且開放集事件修補（Remove Objects with Side Effects）」。旨在推動電腦視覺領域，為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域，事件修補（Event Inpainting）正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題，包括但不限於：基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

MoC 突破時空限制：AI 長影片生成

AI 不僅能創造出栩栩如生的圖片，還能生成數分鐘、甚至更長，且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而，一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術，正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展，為長影片生成帶來了革命性的解決方案，有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰，在於模型必須能夠在漫長的時間序列中，保持並檢索關鍵事件，同時避免資訊崩潰或內容漂移。現有的擴散變換器（diffusion transformers）雖然在短影片生成方面表現出色，但其自注意力（self-attention）機制的二次方成本，使得處理長序列時，記憶體和計算資源的消耗變得難以承受，導致效率低下且難以優化。這意味著，隨著影片時長的增加，AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定，導致影片內容的連貫性、一致性大大降低。

(more…)

Categories: 字節跳動, 香港中文大學, 開源, 影像模型

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體，一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題，而現有的多攝影機解決方案又往往需要多達20多個攝影機，並進行繁瑣的逐序列優化。然而，一項由ETH Zürich等機構開發的創新技術——MVTracker，正以其獨特的方法，為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)

Categories: 開源, 視覺模型, 3D, 影像處理

MCD-rPPG 非接觸式健康監測的未來

大規模多模態 MCD-rPPG 資料集旨在用於遠程光電容積脈搏波 (rPPG) 和基於視訊的健康生物標記估計。此資料集包含 600 名受試者在靜止和運動後狀態下，從三個攝影機以不同角度拍攝的同步視訊記錄、PPG 和 ECG 訊號以及擴展的健康指標（動脈血壓、血氧飽和度、壓力水平等）。

我們還提供了一個高效的多任務神經網路模型，即使在 CPU 上也可以即時估計臉部視訊中的脈搏波訊號和其他生物標記。(Paper)

(more…)

Categories: 開源, Medical醫學

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾？想放大照片卻又擔心細節盡失？在數位時代，清晰的視覺體驗至關重要。今天，我們將深入探討一項令人興奮的技術——Vision-SR1，一個基於視覺空間推理網路的圖像超解析度解決方案，它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度（Super-Resolution, SR）的目標是從低解析度（Low-Resolution, LR）圖像中重建出高解析度（High-Resolution, HR）圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而，如何有效恢復細節並生成逼真的高解析度圖像，一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目，全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」（用於圖像超解析度的視覺空間推理網路），其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像，而是能夠理解圖像中的空間關係和視覺語義，進而更智慧地推斷和重建缺失的細節。透過這種方式，Vision-SR1 能夠生成更為精確和自然的高解析度圖像，顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

TRAE 2.0 SOLO 實測結果

TRAE 2.0 SOLO 是一款全自動AI編程助理，用戶只需用自然語言描述想法，AI便能自動編寫需求文檔（PRD）、規劃架構、設定技術棧，完成前後端編碼、資料庫連接，並部署至雲端。

整體而言，這是一款功能強大且易用的AI全能開發助手，幫助用戶用一句話完成從設計到部署的整個應用開發過程。

TRAE 2.0 SOLO Review: Zero Bugs AI Coding

Watch this video on YouTube

Categories: 免費試用, 編程, 教學

Nano Banana 的秘密

Logan Kilpatrick 目前在 Google DeepMind 任職資深 AI 團隊成員。主持人與 Logan Kilpatrick 的一次對談與示範，介紹Google最新的圖像生成與編輯AI模型Nano Banana（基於Gemini 2.5 Flash Image 模型）

I got a private lesson on Google's NEW Nano Banana AI Model

Watch this video on YouTube

Categories: 影像模型, 影像處理

Page 1 of 53

1 2 3 … 53 Next »