Clawdbot 已於 2026 年 1 月 27 日更名為 Moltbot,因為 Anthropic 因商標相似(Claude)而要求變更。原 Clawdbot 是個人 AI 助理工具,支援多平台運行,現轉為 Moltbot,GitHub 移至 moltbot/moltbot,舊 clawdbot 組織重定向至新名稱。 軟體功能、程式碼與使用方式完全相同,僅品牌與帳號變更(吉祥物從 Clawd 改為 Molty)。

Clawdbot 已於 2026 年 1 月 27 日更名為 Moltbot,因為 Anthropic 因商標相似(Claude)而要求變更。原 Clawdbot 是個人 AI 助理工具,支援多平台運行,現轉為 Moltbot,GitHub 移至 moltbot/moltbot,舊 clawdbot 組織重定向至新名稱。 軟體功能、程式碼與使用方式完全相同,僅品牌與帳號變更(吉祥物從 Clawd 改為 Molty)。

Qwen3‑TTS 由阿里雲的 Qwen 團隊開發的開源語音合成系列模型,專注於提供穩定、富有表現力,且能即時生成語音的功能。整個專案的核心目的在於讓開發者與使用者能夠自由設計語音、快速複製已有聲音,並且能根據指令調整語調、情感與說話速度。相較於市面上其他解決方案,Qwen3‑TTS 同時支援十種主要語言以及多種方言音型,涵蓋中文、英文、日文、韓文、德文、法文、俄文、葡文、西文、意譲等,能讓應用跨語系、跨文化的需求更容易實現。
在技術架構上,Qwen3‑TTS 研發了自己的 Qwen3‑TTS‑Tokeniser‑12Hz 編碼器,這個編碼器能把音訊壓縮成 12.5 Hz 的多本級碼,既保留語义內容,也捕捉細節的聲音特徵。這種設計讓模型在合成音訊時可以使用較輕量的因果卷積網路直接重建波形,降低了運算成本與延遲。相較於傳統的「語言模型+DiT」流程,Qwen3‑TTS 完全貫通端到端的離散多本碼結構,省去了資訊瓶頸與串聯錯誤的問題,提升了整體的生成效率與品質。

模型本身分為四個主要版本,分別是 1.7 B 以及 0.6 B 兩個大小的基礎模型、以及兩個具備語音設計與客製音色功能的變體。小型版(0.6 B)版的模型在三秒內即可完成從使用者提供的音檔進行快速複製,亦可作為微調(Fine‑Tuning)其他模型的起點;較大的 1.7 B 版則在保留上述功能的同時,提供更多語音樣式與更細膩的情感控制。所有模型都已發布在 GitHub 與 ModelScope 平台,並以 Apache‑2.0 授權,讓社群可自由使用、修改。
開發者只需要安裝 qwen‑tts 套件或使用 vLLM 等推理框架,就能自動下載對應的權重模型。若網路環境較為受限,官方提供了手動下載的指令,可讓使用者把模型權重下載到本機資料夾。更重要的是,Qwen3‑TTS 具備即時流式合成的能力,只要輸入一個字符,就能在 97 毫秒以內產出第一段語音,這使得它非常適合即時對話、虛擬助理或直播互動等需要低延遲的應用情境。模型同時支援多種語音控制方式,例如依照文字說明生成特定音色、根據自然語言描述調整語調與情感,甚至在同一段文字中混合多種音色,形成獨特的聲音組合。
總體而言,Qwen3‑TTS 不僅提供高品質的語音合成,更在多語系支援、流式生成、指令式語音控制與開源授權上提供了完整且可直接使用的解決方案。無論是想要在產品中加入自然的語音回覆、想要快速製作示範音檔、或是需要進行語音克隆與客製化設計的研究者,都能從這個開源項目中快速取得所需的工具與模型,並且能輕鬆將其整合到自己的開發流程中。
RoVid‑X 號稱是目前最大規模的機器人影片生成開源資料集,約 400 萬 clips,覆蓋 1300+ skills / tasks,解析度達 720p,同時支援多樣機器人形態與多樣文字描述。RoVid‑X 主要解決現有 SOTA video diffusion / transformer 模型,在一般影片生成指標上不錯,但面對需要「因果一致、物理連貫」的機器人操作影片時,常出現物理錯誤、目標物體消失/瞬移、關節極限違反等問題。
RBench 旨在評估面向機器人的視訊生成的表現。它評估任務層面的正確性和視覺保真度。 雖然RBench為識別這些缺陷提供了必要的視角,但要實現物理上的真實性,還需要超越評估層面,解決高品質訓練資料嚴重短缺的問題。基於這些,他們引入了一個改進的四階段數據管道,由此誕生了 RoVid-X——迄今為止最大的開源機器人視頻生成數據集,涵蓋數千個任務,並富含全面的物理屬性標註。這項協同的評估和資料生態系統為視訊模型的嚴格評估和可擴展訓練奠定了堅實的基礎,加速了具身人工智慧向通用智慧的演進。
REBUTTALBENCH 是第一個將反駁生成重新定義為以證據為中心的規劃任務的多智能體框架。此方法解決了目前直接處理文字方法的局限性,這些方法常常導致臆想、忽略批評意見以及缺乏可驗證的依據。我們的系統將複雜的回饋分解為原子級關注點,透過將壓縮摘要與高保真文本合成來動態建構混合上下文,並整合一個自主的外部搜尋模組來解決需要外部文獻的問題。至關重要的是,REBUTTALAGENT 在撰寫反駁方案之前會產生一個可檢查的回應計劃,確保每個論點都明確地錨定在內部或外部證據之上。我們在提出的 REBUTTALBENCH 上進行的驗證過程表明,REBUTTALAGENT 在覆蓋率、忠實度和策略一致性方面均優於強大的基線系統,為同行評審過程提供了一個透明且可控的輔助工具。下圖總結了我們的工作,並比較了我們的方法與以往的方法。

REBUTTALBENCH 是一個多智能體框架,旨在將反駁過程轉化為結構化且可檢查的工作流程。系統在撰寫最終文本之前會產生與證據相關的中間產物,以確保輸出結果的可靠性和可控性。如下圖所示,該架構將複雜的推理過程分解為多個專業智能體,並配備輕量級檢查器。這種設計突顯了關鍵決策點,使作者能夠保留對策略立場和最終措辭的責任。此流程首先將稿件提煉成結構化的摘要,並提取審查者關注的原子性問題,以確保長期推理的穩定性。在這些關注點的指導下,系統透過從稿件中檢索高保真度的摘錄,並利用網路搜尋添加可驗證的外部文獻,建構證據包。工作流程最後產生一個明確的回應計劃,概述論點和證據鏈接,作者可以透過人機協作機制對其進行完善,之後系統將產生正式的反駁信。

REBUTTALBENCH 使用 LLM 作為評判員的評分標準,從相關性(R 分數)、論證品質(A 分數)和溝通品質(C 分數)三個方面,以 0-5 分制對回覆進行評估。下方的詞雲和高頻詞直方圖突出了評審員反覆關注的幾個方面,例如清晰度、新穎性和可重複性,這些也正是評分標準所明確針對的。
Medical‑SAM3 目標是做一個類似 SAM/Segmentation Foundation 的醫療版,但是真正「通用」到多器官、多疾病、多成像模態(CT、MRI、超音波等),並且支持多種互動式 prompt。
動機在於現有醫療分割模型普遍是單任務 / 單器官 / 單模態,泛化到新醫院、新機器或新部位時效果差,需要大量重新標註。Medical‑SAM3 想以大規模預訓練 + prompt-conditioning 來解決這個問題。因此在新的檢查方式或少數族群資料面前能跨機構使用。
Medical‑SAM3 基於多個公開醫療影像資料集進行大規模預訓練與評估,涵蓋多器官、多模態和多中心資料,以求提升 domain shift 下的泛化能力。

PersonaPlex 是一款即時、全雙工的語音對話模型,它透過基於文字的角色提示和基於音訊的語音訓練來實現角色控制。該模型結合了合成對話和真實對話進行訓練,能夠產生自然、低延遲且角色一致的語音互動。 PersonaPlex 是基於 Moshi 架構和權重。
GLM-4.7-Flash 是 Zhipu AI 最新發布的 30B 參數 MoE 模型(3B 活躍參數),專為高效本地運行與程式碼生成設計,在同尺寸模型中達到開源 SOTA 效能。
影片使用 Inferencer app 在 M3 Ultra Mac Studio (512GB RAM) 測試 GLM-4.7-Flash 的 MLX 量化版本,比較未量化與 Q4/Q5/Q6/Q8 效能。未量化版生成 5000 個 token 的 3D 太陽系程式(含滑鼠互動),優於 Qwen3-Coder 30B (1700 token) 與 Neotron。
量化後 Q5/Q6 版維持高品質輸出(56 token/s,24-27GB 記憶體),適合 32GB 系統;批次處理 4 個提示達 120 token/s 總吞吐量,但記憶體升至 140GB。量化指標顯示 Q6 perplexity 1.23、token accuracy 96.65%,僅輕微發散,證明品質接近基模。
| 量化級別 | Perplexity | Token Accuracy | 記憶體使用 (GB) | Token/s (單一批次) |
|---|---|---|---|---|
| Base | 1.22 | 100% | 60 | – |
| Q5.5 | 1.25 | 94.5% | 24 | 56 |
| Q6.5 | 1.23 | 96.7% | 27 | 56 |
| Q8.5 | 1.23 | 97.8% | 34 | 50 |