InferNews - A.I. 應用

SSync 用選擇式蒸餾改善影片物件分解

2026 年 6 月 21 日

現有的 video object-centric learning（VOCL）多數沿用 slot-based frameworks，通常建基於 reconstruction-driven encoder–decoder architectures：encoder 產生 attention maps，decoder 產生 object maps，再嘗試把兩者對齊。近年的 dense alignment strategy 會對所有 spatio-temporal patches 做 contrastive learning，但這種全對全對齊會把 encoder 的雜訊和 decoder 的模糊邊界一併放大，計算量亦會升到 quadratic complexity，影片一長就更難擴展。

SSync（Selective Synergistic Learning）屬於一個可插入現有流程的 PyTorch 學習模組，目標是改善影片中的物件分解質素。它不是強迫所有 patch 全面一致，而是只挑選較可信的訊號做 mutual-distillation：用 encoder 幫手修邊界，用 decoder 清理物件內部雜訊，方向相當明確。

這項目把「全部都對齊」改成 selective distillation，並透過 pseudo-labeling 把成本降到 linear complexity。作者亦加入 transitive pseudo-label merging，處理 slot redundancy，將時序上反覆重疊的 slots 合併，減少模型把同一物件拆成多份的偏差。

如果你本身有研究 Slot Attention、影片分解、無監督物件發現，這項工作相當值得細看；如果你只是想快速試概念，亦可直接留意作者提供的 PyTorch implementation、Hugging Face 權重和 project page。它屬於 plug-and-play module，較適合已有 VOCL 基礎模型的人接入比較，而不是給完全零基礎讀者當成獨立應用程式。

核心問題：dense alignment strategy 計算昂貴，亦會傳播 encoder 與 decoder 各自的錯誤
核心方法：Selective Synergistic Learning 只蒸餾可靠線索，分開處理 boundary refinement 與 interior denoising
結構補強：加入 transitive pseudo-label merging，減少 slot redundancy
論文聲稱：可提升 decomposition quality，並對 slot configurations 有較強 robustness
相關技術詞：VOCL、slot-based frameworks、Slot Attention、mutual-distillation、pseudo-labeling

整體來看，SSync 的價值不在於另起爐灶，而是在既有 slot-based video learning 範式上，直接指出 dense patch alignment 的兩個痛點：錯誤傳播與計算擴張。對研究型讀者而言，這比單純再堆模型容量更有意思；對工程導向團隊而言，它也提供了一個較容易插入現有項目的改良方向。

GitHub： https://github.com/wjun0830/SSync

Paper： https://arxiv.org/pdf/2606.15527

Categories: 開源, Video, IDE, Python, 模型, 深度學習, 編程, 視覺模型, 框架

RATs 用多代理玩出機械人技能庫

2026 年 6 月 21 日

RATs pipeline overview — click to play the video

現有機械人代理很多時仍然沿用 task-driven 路線：先收到明確指令，再透過 Code-as-Policy 產生可執行程式來完成任務。RATs 則批評這種做法太依賴外部任務，令可重用技能只會在被要求時才出現，所以它提出一個多代理 Code-as-Policy 系統，先用 free-form play 自行發明練習目標，再把成功行為整理成技能庫。

這個項目屬於機械人學習框架，要解決的是機械人代理遇到新任務時，欠缺可直接調用的長期技能累積。RATs 分成 Play 與 Evaluation 兩段：前者由 proposer、planner、policy-writer、verifier、failure-diagnoser 幾個 LLM 代理協作，後者把已凍結的技能當成 planner context 重用，而且強調 no gradients、no RL，主要靠 structured natural-language feedback 與 code reuse 學習。

如果你想試這個項目，較適合把它當成研究型系統來跑 benchmark，而不是即裝即用小工具。環境要求包括 Python 3.10、CUDA-capable GPU，並牽涉 LIBERO-PRO、MolmoSpaces、Robosuite 及真實 Franka Panda 流程；比較合理的測試次序，是先看 Play 階段怎樣生成技能，再檢查 Evaluation 階段對 held-out tasks 有沒有改善。

它的創新點，在於把「玩」正式納入 lifelong robot skill learning：不是隨機探索，而是讓代理自己提出可學習任務、逐步驗證中間進度、失敗後再診斷重試，最後把成功執行蒸餾成 reusable skill library。這令技能可在跨環境情境重用，不一定綁死原本訓練場景。

論文給出的結果相當具體：在 LIBERO-PRO 與 MolmoSpaces，play-learned skills 相比 no play 與 random-play baselines 有提升，對 CaP-Agent0 分別高出 20.6 和 17.0 個百分點；把技能直接檢索進其他 inference-time Code-as-Policy agents 的 context，對 Robosuite 與真實世界 transfer 亦分別提升 8.9 和 8.8 點。相關模型與基線主要包括 CaP-X、CaP-Agent0，以及文中使用的 LLM agents 協作流程；若你關心 agentic robotics、技能重用與真機轉移，這個項目很值得細讀。

類型定位：多代理機械人學習框架，核心是 Code-as-Policy 與技能庫重用
方法重點：先 Play 自提任務學技能，再 Evaluation 把技能注入 planner context
技術取向：不靠 gradients 或 RL，主要依賴自然語言回饋、程式修正與 code reuse
適合場景：研究 embodied agents、robot skill library、cross-environment transfer 的團隊
已提到的相關系統：CaP-X、CaP-Agent0、LIBERO-PRO、MolmoSpaces、Robosuite、Franka Panda

GitHub： https://github.com/Playful-RATs/rats

Paper： https://arxiv.org/pdf/2606.19419

Categories: 開源, NVIDIA, Agentic, 工具, AI productions, Python, Python NLP, 庫, 模型, 模型訓練, Robotic, 框架, Skill 技能

MultiLCB：即時追蹤程式模型表現

2026 年 6 月 21 日

MultiLCB（Multi Live Code Bench）是一個公開的編程模型評測項目，重點是用動態榜單和比較工具，觀察不同模型在多種程式語言上的表現。網站提供 Main Leaderboard、Model Comparison，以及按月份查看 pass@1 變化，適合想快速了解模型編碼能力的人。

這個項目處理的問題很明確：不少編程模型成績只停留在單次發布，難以看出時間變化、語言差異和推理設定的影響。MultiLCB 把資料整理成可篩選的介面，支援語言、難度、平台，以及是否使用 CoT（Chain-of-Thought）等條件，方便直接比較。

使用時，讀者可先在 Leaderboard 選擇日期範圍，再按 Python、JavaScript、TypeScript、Java、C++、C#、Go、Rust、Ruby、PHP、Kotlin、Scala 等語言篩選。若想深入看兩個或多個模型差距，可打開 Compare 頁面，用 pass@1 與平均分數交叉檢視，也可留意每月走勢圖。

支援 LCB、LCB-PRO、LCB-PRO-AGENTIC 多種基準
可按語言、難度、平台、CoT 條件篩選
以 pass@1 為核心指標，方便直觀比較
提供月份變化圖，較易看出模型進步或波動

這類項目特別適合模型研究者、AI 工程師、技術媒體，以及需要挑選 coding model 的團隊。從頁面可見，它偏向基準測試與橫向比較工具；至於數據來源、題目構成和完整評測方法，仍要配合站內 Code、Hf、Submit 或相關說明頁面再作確認。

項目： https://multi-lcb.github.io/

Categories: 開源, Agentic, 工具, Python, Python NLP, Vibe Coding, 模型, 編程

MiniMax-M3：開源多模態模型新選擇

2026 年 6 月 18 日

MiniMax-M3 是 MiniMaxAI 放上 Hugging Face 的模型。主要提供模型推理，image、video、tool_call 及 think 等標記，顯示它很可圍繞多模態互動、工具調用與對話生成能力而設計。

這項目的用途是把文字、圖片或影片訊息放進同一套模型流程中處理。

值得關注的在於它不只像傳統文字模型那樣處理純文字，還預留了工具調用與多種內容標記格式。對開發 Agentic workflow、聊天助理、內容理解流程的人來說，這類設計可減少自行定義輸入格式的工夫，亦方便把不同媒體資料放進同一條處理鏈。

重點可先看以下幾點：
– 支援 image、video 等多模態標記
– 具備 tool_call 結構，適合工具調用場景
– 可用於聊天、內容理解與自動化互動流程

若你是開發者、研究者，或想找可整合多模態能力的模型，MiniMax-M3 有一定參考價值。至於效能、模型尺寸、硬件需求與基準測試，暫時未有完整列出，使用前宜先核對 Hugging Face 頁面的更新資訊。

項目： https://huggingface.co/MiniMaxAI/MiniMax-M3

Categories: 開源, Video, Image, 多模態模型, 模型, MiniMax

Kimi-K2.7-Code：面向編碼的開源模型

2026 年 6 月 18 日

Kimi-K2.7-Code 是 moonshotai 發佈在 Hugging Face 的開源模型，從頁面可見它與程式碼生成、訊息格式化及工具調用相關內容有密切關係。公開資訊顯示，這個項目已可透過部分推理服務直接調用，亦有一定下載量，反映社群關注度不低。

對一般開發者來說，這個項目最直接的用途，是用來處理編碼助理、對話模板、函式呼叫與多角色訊息編排等工作。頁面展示的內容包括 macro、message role、tool_calls 及 generation prompt 等結構，代表它並非只回答文字，也重視代理式互動流程中的輸入輸出格式。

如果你想試用，基本可從 Hugging Face 模型頁開始，查看可用的 Inference Providers，或在支援的平台以 API 方式接入。使用時要留意，當前頁面可見資料較多集中在模板與訊息渲染片段，對模型規模、基準測試與訓練細節的說明仍然有限，因此較適合先做功能驗證，再決定是否納入正式流程。

定位偏向編碼與結構化對話處理
支援 tool_calls、role 標記等代理式互動元素
已上架 Hugging Face，並有推理服務可選
公開頁面暫未見完整性能評測與訓練說明

這個項目較適合開發 AI 編碼助手、聊天工具、Agentic workflow，或想研究模型提示模板的人。若你重視開源、可自行部署，以及需要處理函式調用格式，Kimi-K2.7-Code 會是一個值得觀察的選擇；若要比較模型能力，則仍需配合更多公開測試結果。

項目： https://huggingface.co/moonshotai/Kimi-K2.7-Code

Categories: 開源, 模型, 編程

ActWorld 讓世界模型學懂互動

2026 年 6 月 18 日

ActWorld 是一個 Interactive World Model，目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作，對場景中的物件互動支援有限；這個項目則加入中途操作物件的能力，例如拾取、搬運、放置，令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題：一是缺少高質素的人與物件互動數據，二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此，團隊建立了 100K interaction video dataset，並以 chain-of-thought reasoning 產生 per-chunk captions；同時提出 hierarchical action-aware memory 和 persistent memory bank，讓模型按互動重要性保留歷史資訊，減少 action-forgetting。

使用時，讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷，ActWorld 適合研究 Interactive World Model、Computer-use agents（CUAs）相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

在單一模型內同時處理 long-horizon navigation 與 object interaction
透過 100K interaction video dataset 補足互動數據不足
用 hierarchical action-aware memory 保留較重要的互動歷史
以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明，實驗結果顯示它在不犧牲 viewpoint control 的情況下，interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主，若想深入理解效果，最應留意 Comparisons 及論文中的評測設定與限制。

項目： https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

WAPO：穩定 RLVR 訓練時的損失函數項目

2026 年 6 月 18 日

這是一個強化學習訓練工具項目，核心是為 Reinforcement learning with verifiable rewards（RLVR）加入多種損失函數，用來改善語言模型訓練時容易出現的崩潰問題。作者指出，傳統 GRPO 類方法雖然常見，但在 off-policy 更新下仍可能因梯度動態而失穩，所以這個 fork 直接把研究中的新損失實作進 vf.RLTrainer，方便對照測試。

項目內保留了 grpo、gspo、dr_dapo 等基線，並新增 wapo。其中 wapo 只針對正向回報的 rollout 更新，配合單向截斷與分組歸一化，思路比一般對稱 clip 更保守，目標是減少把模型推向錯誤方向的更新。

這個項目的新意不在於重新訓練一個模型，而是重新整理「哪些樣本值得被強化」這件事。論文提出的 gradient perspective 也把 token 層面的穩定性拆開分析，對想研究訓練動態的人很有參考價值。

適合以下人使用：
– 做 language model RLVR 研究的人
– 想比較 GRPO、GSPO、DR-DAPO、WAPO 差異的人
– 需要在數學推理或 multi-hop QA 做穩定性實驗的人
– 想沿用 vf.RLTrainer 再加自訂 loss 的開發者

性能方面，附帶的 arXiv 內容表示，WAPO 在數學推理與 multi-hop QA benchmark 上可提升訓練穩定性，並在多個模型家族上達到或超過基線。相關模型或方法包括 RLVR、GRPO、GSPO、DR-DAPO 與 WAPO。

GitHub： https://github.com/layer6ai-labs/wapo

Paper： https://arxiv.org/pdf/2606.16154

Categories: 開源, Qwen, 工具, LangChain, LangGraph, Python, 模型, 模型訓練, 深度學習

UniAR 用一個 Transformer 包辦看圖、作圖、改圖

2026 年 6 月 18 日

現有 Unified Multimodal Models（UMMs）多數會把影像理解和影像生成分開處理，常見做法是用兩套 visual tokenizers。作者認為這種 fixed paradigm 會把表示空間拆開，模型生成完圖片後，還要再重新編碼才能理解自己剛產生的內容，shared context 也就難以真正成立；UniAR 因此提出一個 unified autoregressive framework，用單一 discrete visual tokenizer 連接理解、生成與編輯。

項目屬於多模態模型，目標是用同一個 Transformer 解決 image understanding、image generation 和 image editing 之間來回切換的成本。它的核心判斷很直接：若模型看圖與作圖共用同一套視覺 token，流程就不需要額外 re-encoding，系統結構會更一致。

技術上，UniAR 有幾個辨識度很高的設計。Multi-level BSQ tokenizer 把高層語意與低層細節一併保留，並透過 Binary Spherical Quantization 擴大有效 vocabulary；parallel bitwise prediction 則把視覺碼以分組方式一齊預測，令 autoregressive 長序列壓短，論文提到 1024×1024 影像只需 256 個 AR tokens，對應 32x visual compression ratio。

單一 discrete visual tokenizer 取代雙 tokenizer 架構
支援 image understanding、image generation、image editing 同模運作
Multi-level BSQ tokenizer 同時顧及語意與細節
parallel bitwise prediction 壓縮視覺序列，加快 autoregressive 生成
DiT-based visual decoder 以 discrete visual tokens 重建高保真影像
需求：Python 3.12、CUDA 12.1+、推理的 GPU 記憶體 >= 24 GB

如果你想試這個項目，較合理的切入點不是直接拿來當日常工具，而是先看它公開的模型權重與項目頁，分開測理解、生成、編輯三類輸出是否一致。它較適合研究多模態統一架構的人、關注 Qwen 生態的開發者，以及想比較 autoregressive 與 diffusion 混合路線的讀者。

性能方面，原文聲稱 UniAR 經 large-scale pre-training、supervised fine-tuning 和 reinforcement learning 後，在 image generation 與 image editing 達到 state-of-the-art，同時在多模態理解 benchmark 保持競爭力。不過目前公開資訊較像研究成果展示，visual decoder training code 仍未完整放出，因此更適合拿來理解方法論，而不是立即評估成成熟生產工具。

相關模型與組件包括 SD3-medium visual decoder、Qwen Team 背景下的多模態模型路線，以及論文聚焦的 Unified Multimodal Models（UMMs）。若你在意的不是單次生成效果，而是模型能否「理解自己生成的內容」，UniAR 的 shared context 設計確實提出了一個有意思而且相當具體的答案。

GitHub： https://github.com/ShareLab-SII/UniAR

Paper： https://arxiv.org/pdf/2606.18249

Categories: 開源, 阿里巴巴, Qwen, Stable Diffusion, Image, 工具, AI productions, Vibe Coding, 多模態模型, 影像模型, 影像處理, 模型, 框架

Dataset：EgoCS-400K 補足遊戲世界模型數據缺口

2026 年 6 月 18 日

現有做法多數依賴 captioned videos、機械人數據，或模擬器軌跡來訓練 World Models，但前者缺少可執行動作與可靠狀態，後者又常受成本、場景規模或真人互動不足限制。EgoCS-400K 就是針對這個缺口而設的 Dataset 數據集，用公開的 Counter-Strike / CS2 demo 重建第一身視角，將影片、控制輸入、遊戲狀態與語言描述同步整理。

這個項目最核心的價值，不只是「有很多影片」，而是把 replay-grounded 資料做到 tick-level telemetry 對齊。資料同時包含 keyboard/mouse inputs、atomic actions、protected action chains、DP-based temporal segments，以及 multi-grained video-language captions，令模型不只看到畫面，還能追蹤玩家當下做了甚麼、為何畫面會變。

官方資料顯示，它涵蓋超過 400,000 段 first-person videos、10,000 小時以上 gameplay、1,000 多場比賽、40,000 rounds、13 張地圖，規模相當大。它支援的任務亦很明確，包括 action-conditioned future prediction、state- and event-aware scene rollout、replay-grounded captioning，以及 agent egocentric action understanding。

想了解內容，可先用公開 viewer 直接查看樣本，再按需要處理影片；若要生成 VLM captions，才需要 API key。較適合研究 World Models、Gaming Agent、Computer-use agents（CUAs）相鄰方向、影片理解，或想研究人類決策與視角變化如何連動的開發者。

類型屬於 Dataset 數據集，主要解決互動式 World Models 缺乏高質素「影片-動作-狀態-語言」對齊資料的問題
舊範式依賴 web video、robotics data 或 simulator traces，各自欠缺狀態、規模或真人軌跡
辨識度最高的設計，是 replay-grounded、tick-level telemetry 與多粒度標註放在同一條時間線
適合做未來畫面預測、事件感知生成、第一身動作理解與 captioning 研究
相關方向與模型包括 World Models、vision-language-action models、video generation models、Gaming Agent

如果你只想找一般遊戲影片數據，EgoCS-400K 可能顯得偏研究型；但若你在意動作如何驅動畫面與事件，這個項目的資料結構明顯比普通影片庫更有分析價值。它未必直接等於完整訓練方案，但作為高對齊、高時間解析度的基礎數據，定位相當清晰。

GitHub： https://github.com/EgoCS-400K/Dataset

Paper： https://arxiv.org/pdf/2606.18180

Categories: 開源, Agentic, API, Video, IDE, 動畫, 多模態模型, 庫, 模型訓練, Robotic, 世界模型, 香港城市大學, Dataset 數據集

SeeQ 讓 VLM 學識自己出視覺問題

2026 年 6 月 18 日

現有 Vision-Language Models（VLMs）多數按「被動答題」範式訓練：人類或外部模型先提供問題，模型再學習回答。論文認為這種 fixed inputs 做法受制於靜態資料分佈，Visual Question Generation（VQG）亦容易卡在標註成本高、題目深度不足這兩個瓶頸，所以 SeeQ 提出 Self-Evolving Visual Questioner，用同一個 VLM 同時做 proposer 與 filter，自動從未標註圖片生產更難、更貼近畫面內容的問題。

這個項目屬於框架兼研究型工具，重點不是再做一個普通題庫，而是建立完整流水線：先生成 seed questions，再反覆改寫，提升 visual search、context 與 spatial reasoning 要求，之後再由模型自行過濾。作者同時加入 exploration diversity 控制，目標是避免訓練一路收窄，最後只剩單一風格題目。

如果你想試，較合理的做法是先準備圖片對應的 JSON 輸入，再分開看 generation 與 evaluation 兩部分輸出。倉庫內沒有附模型權重、數據集與快取，評測亦會用到 image-capable OpenAI evaluator 與 Qwen embedding models，所以較適合已經有 VLM 環境、想驗證自動出題流程的研究者或多模態團隊。

以未標註圖片開始，自動生成、改寫、過濾視覺問題
保留 Agentic evaluation，從 visual search、evidence coverage、context、spatial reasoning 評分
另用 Qwen embedding models 檢查整體多樣性，不只看單題質素
強調 zero external supervision，不依賴人工標註或 GPT-4V 這類外部 teacher models

創新點在於它不單止用 VLM 產生問題，還把「提問能力」當成可自我增強的訓練訊號，並且把 questioner 與 answerer 兩種模式一起考慮。按論文說法，這套方法在多個 backbone VLMs 上都能提升問題質素，亦把自動出題的難度邊界推高；同樣預算下，比直接用靜態來源資料訓練更有效，而模型的 answerer 能力亦未有明顯犧牲。

相關模型與元件方面，倉庫內容顯示生成流程可配合 Qwen2.5 3B 類型設定，評測會用 OpenAI 的可看圖評估器，以及 Qwen embedding models。若你關心多模態訓練、合成數據、或想建立能自己發問再自我改良的 Agentic workflow，SeeQ 的方法論比單純看分數更有參考價值。

GitHub： https://github.com/tianyi-lab/SeeQ

Paper： https://arxiv.org/pdf/2606.13929

Categories: 阿里巴巴, Qwen, OpenAI, Agentic, Image, 工具, AI productions, Embedding, IDE, Python, RAG, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 框架, Dataset 數據集

Page 1 of 96

1 2 3 … 96 Next »