InferNews

minWM：由影片生成走向 World Model

minWM 的定位很清楚：它不是再提供一個新模型，而是把建立 video world model 的整條流程拆開，讓人由 bidirectional T2V（Text-to-Video）或 TI2V（Text-and-Image-to-Video）基礎模型，一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說，這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」，而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程，並提供 example data、runnable scripts、Claude Skills 與新手知識整理，方便你先跟一次標準流程，再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題，在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作，背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制；minWM 正是把這些環節模組化，並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

支援 4-step DMD inference，並提到 multi-GPU sequence parallelism
可用 pose strings 或 JSON 檔控制 camera trajectory
提供 debug-world-model，整理 loss NaN、jitter、camera drift 等常見失敗模式
提供 integrate-new-backbone，示範怎樣接入新的 video DiT
參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B，亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式，也把團隊累積的排錯經驗與 Claude 協作流程寫進項目，令研究者或工程人員不只看到結果，還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models，並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程，若你想比較單一模型跑分，這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub： https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

Qwen-VLA 用單一模型打通機械人任務

Qwen-VLA 是一個把視覺、語言與動作整合起來的項目，目標是用同一套模型處理機械人操作、導航，以及軌跡預測。過往很多 embodied intelligence 系統都只針對單一任務或單一機械人設計，結果是能力分散，換場景、換任務或換機體後便難以沿用。

這個項目以 Qwen3.5 Vision-Language Model 為基礎，再加入 DiT-based action decoder，令模型不只看圖和理解文字，還能產生連續動作與軌跡。研究團隊亦加入 embodiment-aware prompt conditioning，用機械人專屬文字描述去標示當前機體與控制方式，讓同一模型可支援多種 robot embodiments。

核心概念是把不同類型資料一同訓練，包括 robotics manipulation trajectories、human egocentric demonstrations、synthetic simulation data、vision-and-language navigation data，以及 auxiliary vision-language data。對開發者來說，這代表項目不是只做問答或只做控制，而是把 manipulation、navigation 與 trajectory prediction 放進同一個 action-and-trajectory prediction 框架。

重點可先看以下幾項：
– 用單一 Vision-Language-Action Model 處理多類 embodied 任務
– 同時支援文字回應、動作生成與軌跡生成
– 透過 embodiment-aware prompt conditioning 適配不同機械人平台
– 強調 out-of-distribution generalization，涵蓋光線、背景、物件配置與機體變化
– 適合研究通用機械人控制、跨任務遷移與多平台部署的人員

論文列出 Qwen-VLA-Instruct 在多個基準上有不錯表現，包括 LIBERO 97.9%、Simpler-WidowX 73.7%、RoboTwin-Easy/Hard 86.1/87.2%、R2R 的 69.0% OSR、RxR 的 59.6% SR；在真實世界 ALOHA 實驗亦錄得 76.9% average OOD success，在 DOMINO dynamic manipulation 有 26.6% zero-shot success rate。若你關注的是一個可橫跨任務、環境與 robot embodiments 的通用型項目，展示了統一式 Vision-Language-Action Modeling 的清晰方向。

Paper： https://arxiv.org/pdf/2605.30280

Categories: 阿里巴巴, Agentic, 模型, 世界模型, 中國

OmniRetrieval：整合多種知識來源的檢索項目

OmniRetrieval 想處理的，是資料散落在不同系統時的查詢麻煩。一般檢索工具多數只懂一種來源，但這個項目會先理解自然語言問題，再挑選合適知識來源，為各來源生成對應查詢，最後合併結果。

使用這個項目時，核心流程分成 route、generate、execute、select 四步：先選來源，再寫出來源原生查詢，之後執行，最後從多份結果中挑出較合適的證據。對非研究用途讀者來說，可把它理解成一個「跨系統問答協調層」，放在文字語料、SQL、SPARQL、Cypher 之上。

它的重點不在把所有資料硬轉成同一格式，而是保留各種來源原本的表達能力。這種做法能保住關聯式資料庫的 schema、RDF knowledge graph 的 ontology，以及 property graph 的圖結構查詢能力，避免統一格式後反而損失資訊。

支援四類來源：free-form text、SQL、SPARQL、Cypher
基準涵蓋 13 個資料集、309 個 distinct knowledge bases
可量度 source selection accuracy，以及 query formulation 的 exact match 與 token-level F1
提供 LLM provider 選擇，文中可見 openai 與本地 vllm 設定
相關資料集包括 BEIR、Spider、BIRD、LC-QuAD 2.0、QALD-10、SimpleQuestions、Text2Cypher

表現方面，來源資料指出 OmniRetrieval 在跨來源基準上超越 single-source baselines，但不同模型、資料預處理和外部執行環境都會影響結果。從項目結構看，它較適合研究 heterogeneous knowledge retrieval、企業內多資料源問答，或想測試 Large Language Model 如何生成 SQL、SPARQL、Cypher 的開發者。至於模型，項目至少提到 openai 預設骨幹與可本地運行的 vllm，示例亦出現 Qwen/Qwen3.5-4B。

GitHub： https://github.com/JinheonBaek/OmniRetrieval

Categories: 開源, Agentic, 框架

CollectionLoRA：把多個效果 LoRA 濃縮成一個

Repository image for Qwen-Applications/CollectionLoRA

CollectionLoRA 是一個針對 LoRA 管理成本而設的項目，核心做法是用 multi-teacher on-policy distillation，將多個效果 LoRAs 的概念，以及 few-step generation 能力，一次過蒸餾進單一 LoRA。對一般使用者來說，意思就是原本要為不同效果切換或串接多個 adapter，現在有機會改用一個整合版本處理，流程會更簡潔。

使用這個項目時，重點不是由零開始訓練，而是先按項目提供的 ckpt/ 結構放好權重，之後以 50_in_1/ 作推理用途。倉庫亦提供公開的 training and inference code，而 data/manga_tone/ 內有起步用的 teacher LoRA 和示範訓練資產，方便了解整個資料與模型配置方式。

它解決的問題相當明確：當效果 LoRA 數量愈來愈多，部署、切換與疊加都會變得麻煩，配合 acceleration modules 時，還可能出現互相干擾。CollectionLoRA 嘗試把「多效果」與「少步數生成」合併到同一個 LoRA，這比單純收藏大量 LoRA 更像是重新整理整個工作流。

項目公開的重點包括幾個方向：
– 可把 50→1，甚至 180→1 的效果教師整合到單一 LoRA
– 在 EffectBench 上，文中稱其於 8 NFE 下可取得較高 VSA 與較低 BCR
– 支援 zero-shot 的 A ⊕ B 組合效果，推理時可配對兩個已訓練教師，無需額外訓練
– 已開放 training and inference code，但 model weights 仍標示為未全面開放

這個項目較適合會接觸生成效果控制、需要管理大量 LoRA 的研究者與開發者，也適合想減少部署複雜度的團隊。若你關心的是把多種風格或效果整合成較易分發的模型形式，CollectionLoRA 展示的方向很有參考價值；不過現階段公開資訊主要集中在框架、指標與示範資產，完整權重供應情況仍要留意項目後續更新。

GitHub： https://github.com/Qwen-Applications/CollectionLoRA

Categories: 開源, 阿里巴巴, 影像模型, 影像處理, 視覺模型, 框架

AgentDoG：輕量級 AI agent 安全護欄

AgentDoG 1.5 是一個針對 AI agent 安全與對齊的項目，重點不只是事後評分，而是把風險診斷、訓練同線上護欄串連起來。它面對的是長流程規劃、工具調用，以及跨環境互動帶來的新風險，特別貼近 OpenClaw、Codex 這類 agent 場景。

使用這個項目時，可先到 Hugging Face 或 ModelScope 找出以 AgentDoG- 開頭的 checkpoints，再按自己要做的是安全分類、訓練還是線上監察去配合相應模型。對一般團隊來說，最容易理解的用途是把它當成部署前的安全檢查器，或部署中的即時守門員。

這個項目的核心進展，在於它用更新過的 agent safety taxonomy 配合 ATBench family，把安全問題拆成更細緻的風險類型，再用大約 1k 訓練樣本建立輕量版本。公開資料亦提到它提供 0.8B、2B、4B、8B 等型號，並支援 agentic SFT 與 RL 訓練流程，令成本和擴展性較易控制。

支援 AgentDoG-0.8B、AgentDoG-2B、AgentDoG-4B、AgentDoG-8B 等版本
針對 ATBench-Pro、AT-Codex、AT-Claw 等基準作安全診斷
標準 8-core 機器可支援超過 10,000 個並行 agentic environments
可作 training-free online guardrail，用於即時安全監察與介入

資料顯示，AgentDoG 1.5 在多個基準上可接近，甚至部分情況超過 GPT-5.4、Gemini-3-Flash、Qwen3.5-397B、Qwen3-235B、Qwen3-Guard 等模型；其中 AgentDoG-4B 與 AgentDoG-4B-U 的結果較突出。不過不同數據集差異明顯，較穩妥的看法是：它在 agent 安全這個窄而深的任務上很有競爭力。

這個項目較適合正在做 AI agent、工具調用工作流、企業自動化，或需要把安全檢查放進部署流程的團隊。若你關心的不是聊天效果，而是 agent 會否在複雜環境中做錯事、越權或造成真實風險，AgentDoG 的定位就相當清晰。

GitHub： https://github.com/AI45Lab/AgentDoG

Categories: 開源, Agentic, 安全, 模型, 編程, 中國, 上海人工智慧實驗室

LiteCoder：輕量編程代理再推前一步

LiteCoder 是一個圍繞終端機代理訓練的項目，核心目標很清楚：讓小型和中型 code agent 模型，在 command-line 工作流中做得更好。它今次公開的不只是 LiteCoder-Terminal-SFT 模型與資料，還包括 11,255 條軌跡資料，以及 602 個附完整測試的 Harbor terminal environments，整體比單放模型更有研究價值。

一般 coding model 比較像「幫你寫 code」。
這個更像「幫你在 terminal 裡完成任務」，所以它的重點是行動能力，不是只會生成代碼片段。

這個項目主要回應兩個常見難題：一是 terminal agent 訓練資料難找，二是很多任務描述無法直接驗證成效。LiteCoder 以可執行環境取代純文字題目，並把任務整理成可測試約束，令模型學到的不只是答題格式，而是多步驟操作、回饋修正與狀態轉換。

使用時可先從已公開的模型與 datasets 入手，再配合 GitHub 內的 code 檢視資料結構、環境生成方法與訓練脈絡。對研究者或工程團隊來說，這種「模型＋資料＋環境」一套齊的形式，方便重現結果，也方便延伸到 RL、偏好優化或自家 terminal 任務。

已公開相關模型：LiteCoder-Terminal-30b-a3b-sft、LiteCoder-Terminal-4b-sft
已公開相關資料：LiteCoder-Terminal-SFT、LiteCoder-Terminal-World-Model-SFT、LiteCoder-Terminal-RL-preview
資料規模由不足 1k 擴大到 11,255 trajectories，涵蓋 10 個 domains
訓練由 Terminus-only 擴展到 multi-scaffold，任務類別也加入 coding、scientific/numerical computing、games
基準結果較前一版提升，並報告 Terminal Bench 1.0／2.0／Pro 與 pass@4

從論文附帶資訊看，Qwen-family models 經過 Supervised Fine-Tuning（SFT）後，表現明顯優於 base model；其中 32B 版本在 Terminal Bench 1.0、2.0、Pro 的 pass@1 分別達 29.06%、18.54%、34.00%。數字不算誇張，但對長步驟 terminal 任務來說已有參考意義。

這個項目特別適合想研究 Computer-use agents、CLI agent、合成環境生成，或想建立可驗證訓練流程的人。若你關心的不是聊天回覆，而是模型能否在終端機內逐步完成工作，LiteCoder 提供了一條相對完整而且可追蹤的路線。

GitHub： https://github.com/icip-cas/LiteCoder

Paper： https://arxiv.org/pdf/2605.29559

Categories: 開源, Agentic, 模型, 編程, 中國

UI-KOBE：幫手機代理先認路再操作

Repository image for YuxiangChai/UI-KOBE

UI-KOBE 是一個面向手機圖形介面代理的項目，核心做法是先探索 Android app，再把畫面與操作路徑整理成狀態轉移圖。對非研究背景的讀者來說，可以把它理解成先替代理畫好地圖，之後代理就不用每一步都盲撞。

動手使用這個項目，需要先備好 Python 3.10、uv、Android SDK、adb、emulator，以及已安裝目標 app 的 Android Virtual Device，另外還要提供 VLM 服務憑證。它依賴 AITK，並可把產生的圖拿去配合 AITK 或 Android World 使用，所以較適合已經有 Android 自動化或代理測試流程的人。

這個項目解決的問題很明確：手機代理在 app 內工作時，容易因畫面變化、按鈕位置或流程分支而迷路。UI-KOBE 會先開啟 app、觀察畫面、選擇探索動作，再記錄結果；每個 app 狀態成為圖節點，能把狀態改變的操作變成邊，之後執行階段可先匹配當前畫面，再從附近路徑選下一步，必要時也可用 free-form fallback action 補位。

先建立 UI knowledge graph，再交給下游代理導航
可接到 AITK 與 Android World 代理流程
依靠 state-transition graphs 減少盲目點擊與重複探索
內含 explore、audit_graph、plot_graph 等腳本，方便檢查圖內容

從設計看，UI-KOBE 的創新點不在單一模型，而在把探索與執行拆成兩段：先累積 app 結構知識，再於 runtime 重用。儲存庫亦提到 UI-KOBE v2 runtime 會載入圖、比對當前畫面節點，再根據圖邊決策；這種做法在多步驟 app 任務中，理論上比純即時決策更穩。

就用途而言，這個項目很適合研究 Computer-use agents（CUAs）、mobile GUI agents、Android 任務代理。

GitHub： https://github.com/YuxiangChai/UI-KOBE

Categories: 開源, 香港中文大學, Agentic, 框架

AsyncTool 點樣測試代理多工工具能力

AsyncTool 是一個基準測試項目，重點不在教模型怎樣調用工具，而是檢查它在多個任務同時進行、而 Function Calling 回應又有延遲時，會否亂了節奏。一般工具使用測試多數假設結果即時返回，但這個項目刻意加入等待時間，看看代理能否先處理其他不相依的步驟。

AsyncTool 主要是透過儲存庫內的 runner 與評估腳本，將模型接到模擬工具環境，再比較它在同步與非同步情境下的表現。同時可配合 OpenRouter API 的 deepseek/deepseek-chat-v3.1:free，亦可接本地 vLLM endpoint 上的 Qwen/Qwen2.5-7B-Instruct，對想測試不同部署方式的人算是方便。

AsyncTool 把「等工具結果時應否轉做別的事」變成可量化問題。它不單看工具有沒有調對，還會檢查代理是否記得任務狀態、能否遵守步驟依賴、何時切換任務，以及最後能否完整完成整個流程。

核心焦點是 asynchronous tool calling，不是假設工具即時回應
評分分成 step-level、sub-task-level、task-level 三層
會觀察 task switching 時機，而非只計切換次數
內含 benchmark data、tool executors、evaluation scripts

項目顯示不少模型在同步設定下尚可，但遇上非同步延遲後，成功率會明顯下跌。這反映問題未必在於模型不懂用工具，而是它未必擅長長時間追蹤依賴關係和維持多項目狀態。

這項目適合研究 LLM-based agents、agentic workflow、工具調用編排的人，也適合想替自家代理流程做壓力測試的團隊。若你關心的不是單一步驟答對，而是代理在繁忙環境下能否穩定完成工作，AsyncTool 的測試角度相當有參考價值。

項目由中國科學技術大學及多倫多大學合作

GitHub： https://github.com/StoKou/repo-asynctool

Categories: 開源, Agentic, 中國, 框架

CNS 點樣改良擴散取樣效率

Colored Noise Sampling（CNS），核心想法是按影像頻率分配雜訊，而不是每一步都加入同樣的 white noise。對非研究背景讀者來說，可以把它理解成：模型早段已經大致砌好輪廓，就不必再把力氣花在這些部分，反而集中補足仍未成形的細節。

它要解決的問題很明確：傳統 Stochastic Differential Equations（SDE）取樣器會平均地把隨機能量灑向所有頻段，但 diffusion models 本身有 spectral bias，低頻結構較早完成，高頻細節較後才逐步補上。CNS 會利用預先計算好的 gamma matrix，判斷每個頻段在不同時間步的完成程度，再把雜訊導向仍然欠缺結構的部分。

這個設計吸引之處，在於它屬於 training-free，而且是 plug-and-play sampler substitution。換句話說，不用重新訓練原有模型，不用增加步數，主要改動只在 noise injection；對已經有生成流程的人，這比重建整個項目方便得多。

保留原模型與原取樣步數，只改取樣時的雜訊策略
依靠 gamma matrix 做頻率感知的動態分配
支援多種架構，文件提到 SiT、JiT、FLUX
在 ImageNet-256 的 FID 結果有明顯改善，尤其 unguided 設定較突出

項目提供了較具體數字：SiT-XL/2 的 unguided FID 由 8.26 降到 6.27，JiT-B/16 由 32.39 降到 26.69，JiT-H/16 由 11.88 降到 8.31；使用 Classifier-Free Guidance 時也有一致改善。這些結果顯示，CNS 並非單靠理論包裝，而是在多個模型上都有可量化的收益。

這項目較適合已經在研究或測試 diffusion models 生成品質的人，例如想比較 ODE 與 SDE 取樣差異、希望在不改訓練成本下提升輸出表現的開發者。若你只想快速理解概念，重點就是：CNS 不是換模型，而是把每一步加入的隨機能量分配得更精準。

GitHub： https://github.com/hadardavidson/colored-noise-sampling

Categories: 開源, 影像處理, 框架

Skill0.5 如何提升強化學習泛化力

Skill0.5 是一個面向 Agentic Reinforcement Learning 的研究項目，聚焦處理 out-of-distribution generalization 問題。它指出傳統 skill-based RL 方法常要在 full externalization 與 full internalization 之間二選一，前者會帶來高昂的 context 開銷，後者則容易出現 overfitting 與知識衝突。

這項目把 general skill internalization 與 task-specific skill utilization 一同納入訓練，但用不同策略處理兩種性質不同的技能。系統會用 difficulty-aware router 按任務難度分流：Hard tasks 用 privileged distillation 內化通用技能，Medium tasks 用標準 RL 提升成功率，Easy tasks 則透過 diagnostic probing 懲罰走捷徑的行為，迫使模型忠實運用任務相關技能。

對初步理解這個項目的人來說，可先把它視為一種「按難度分工」的訓練框架，而不是單一模型結構。使用時要留意 context 開銷被視為問題之一，某程度上也反映較重的外部技能依賴可能增加資源壓力，包括 VRAM 與序列處理成本。

解決 rigid choice 問題，避免只靠 externalization 或 internalization
用 difficulty-aware router 把任務分成 Hard、Medium、Easy 三層
分別結合 privileged distillation、標準 RL 與 diagnostic probing
在 ALFWorld 與 WebShop 中，據摘要所述優於 memory-based 與 skill-based RL baselines

這類項目較適合研究智能代理、任務規劃與泛化能力的人參考，尤其是想改善模型在陌生情境下穩定性的團隊。

訓練和實現時使用 Qwen2.5-7B-Instruct 作為基礎模型。策略最佳化方面採用 GRPO 作為骨幹網絡，組別大小 G = 8，學習率為 1 × 10⁻⁶。訓練在 4 個 H800 GPU 上進行，每次迭代的批次大小為 16 個任務，最大互動範圍設定為 30 步。任務特定技能透過 Qwen3-Embedding-0.6B 取得。

GitHub： https://github.com/JasonZhujp/Skill0_5

Categories: 開源, 多模態模型, 影像模型, 影像處理

Page 1 of 84

1 2 3 … 84 Next »