ARGAR 直指 AI 審稿可被包裝操控

ARGAR

現時不少 AI reviewer 評測,默認接受論文的摘要、敘事結構與貢獻陳述,並直接輸出分數或意見;ARGAR 指出這種固定範式未必真正在看科學內容,而可能被 presentation-level content 牽動。作者因此提出 ARGAR(Adversarial Repackaging Gaming AI Review),用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具,而不只是單一資料集;它要解決的,是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search:每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構,再比較新版與 baseline 的審稿結果,但 scientific content held fixed。

若想測試它的思路,最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下,經過不同包裝後,AI review 怎樣波動,也能看清每一輪修改決策如何形成。

  • 類型定位:研究框架兼工具,用來檢驗 AI reviewer 是否容易被論文包裝影響
  • 方法重點:只改 abstract、framing、contribution statements、narrative structure,不改 scientific content
  • 輸出結構:保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
  • 適合場景:AI safety、LLM evaluation、學術審稿自動化研究
  • 限制提醒:項目明確反對把結果用於真實投稿操控,定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題,而是把舊範式拆開,專門測 presentation attack 對評分的影響。從儲存庫資料看,這種設計也方便研究者重播整個攻擊過程,比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開,因此不宜代作者下結論;不過評測設計本身已很有辨識度,因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面,項目透過 LiteLLM 路由不同 LLM provider,可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model,亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub: https://github.com/xyimatvoid/ARGAR

Paper: https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, , 模型, Anthropic, AGI, 清華大學, 框架, Dataset 數據集

iMaC:把機械臂動作變成可預測影像

overview

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors,再經 learned conditioning modules 交給模型處理;作者認為這種做法要模型自行猜測細微空間後果,遇到 real manipulation 時,幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型,核心是把 future joint actions 轉成 image-like controls,減少「動作有輸入,但空間關係表達不足」的問題。

這個項目的方法相當具體:先利用 robot URDF 與 forward kinematics,渲染 future robot-observation control videos,也就是 motion images;之後再加入 depth 作為輔助訊號,配合 3D pointclouds 建立 two-stream geometry controls,也就是 contact images。舊範式主要靠抽象向量條件化,iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制,這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code,覆蓋 RND-mix stage-one、stage-two,以及 WorldArena 三條流程。想試這個項目的人,會先由資料前處理、depth 與 3D condition 建立開始,再跑 validation inference 看生成影片是否跟動作一致;若本身做 robotic policy evaluation,還可以接到 WorldArena 或 online RND evaluation 場景。

  • 把 actions 轉成 motion images 與 contact images,空間條件更明確
  • 用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
  • 加入 training-time rollout strategy,目標是支援更長時序生成並減少 exposure bias
  • 儲存庫同時涵蓋訓練、前處理、推論,不只是論文展示模型
  • 相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面,論文指出它在八個長時序真實機械人操作任務中,world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試,而是在正式落機前,先用生成式 world model 篩選 policy checkpoints;對研究 embodied evaluation、robotics 與世界模型的人來說,iMaC 屬於相當值得跟進的一個方向。

GitHub: https://github.com/imac-wm/iMac

Paper: https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, , 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

RhymeFlow:加快影片生成的新路線

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法,主要仍沿用標準 diffusion pipeline:每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising,再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出,這種固定範式忽略了相鄰影格內容與動作高度相關,令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架,核心目標是替 DiT(Diffusion Transformers)影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理:先找出主導語意變化的 keyframes,讓 keyframes 保持逐步去噪,非 keyframes 則逐步跳過部分步驟,再用 latent trajectory projection 補回時間一致性。

這個做法的創新,不在於單純把 attention 再稀疏化,而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述,RhymeFlow 在現有 DiT-based video generation models 上,能同時取得更高 inference speed 與更好 visual quality;不過 GitHub 目前公開重點放在 Wan 2.1 adaptation,HunyuanVideo adaptation 仍在準備中。

如果你想試,較合理的切入點是把它當成 Wan 2.1 的加速實驗框架,比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高,文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0,亦牽涉 FlashInfer、flash-attn 和自訂 kernels,較適合已有 GPU 與 PyTorch 經驗的人。

  • 項目類型:training-free 影片生成加速框架,處理 DiT 影片模型推理太慢的問題
  • 方法重點:keyframes 做 dense denoising,非 keyframes 跳步處理,再用 latent trajectory projection 維持時序一致
  • 可比較方法:dense、svg、sap、rhyme、rhyme_sap
  • 相關模型:Wan 2.1 已有 adaptation,HunyuanVideo adaptation 尚未完整釋出
  • 適合場景:研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看,RhymeFlow 的價值很明確:它不是改模型權重,也不是重新訓練,而是重排 denoising flow scheduling,從流程層面節省計算。對研究者與進階開發者而言,這類思路比單純堆硬件更有參考價值;對一般創作者來說,現階段門檻仍在部署與 GPU 環境。

GitHub: https://github.com/Simon-Dcs/RhymeFlow

Paper: https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 清華大學, 框架

S2L-PO 用小模型帶動大模型推理訓練

S2L-PO method overview

這個項目來自跨校團隊,作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人,通訊作者是 Yu Qiao 與 Ruihang Chu;所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看,團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization(GRPO)訓練流程的研究型框架,目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature,從 token-level randomness 增加變化,但論文指出這種固定範式容易在長推理鏈累積噪音,令軌跡變得不連貫。

S2L-PO(Small-to-Large Policy Optimization)換了一個角度:不用同一個大模型不停抽樣,而是找同家族的較小模型做 explorer,先產生一部分 qualitatively different reasoning trajectories,再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing,逐步由 small-model exploration 過渡到 fully on-policy learning,避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例,AIME24 Pass@1 由 15.0 提升到 23.8,AIME25 Pass@1 由 12.1 提升到 22.5;Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低,這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目,較合理的方式不是當作即裝即用工具,而是把它視為一個訓練策略參考:先看論文與公開模型設定,再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低,資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB,較適合研究人員、模型訓練工程師,或正在做數學推理微調的團隊。

  • 核心判斷:這是模型訓練框架,不是一般聊天應用,重點在改善 GRPO 的探索品質
  • 方法差異:由 token-level randomness 轉向 policy-level diversity,減少長鏈推理失真
  • 主要創新:用較小同家族模型充當 natural explorers,再以 progressive annealing 收回大模型主導權
  • 已列相關模型:Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
  • 適合場景:數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub: https://github.com/qishisuren123/S2L-PO

Paper: https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 清華大學, 框架, 上海人工智慧實驗室

[技術文章] 牛津團隊用 MedMisBench 測試醫療 LLM 抗誤導力

Hero image preview

這個項目由 University of Oxford、University of Washington、University College London 及 University of Waterloo 的研究人員合作提出,重點放在醫療 Large language models(LLMs)遇上誤導內容時,能否守住原本正確的醫療判斷。作者指出,現有做法多數用乾淨、考試式題目評估模型知識,但這種範式只量到模型「識唔識」,未有量到模型在混雜資訊環境中會否被帶偏。

因此,團隊提出 MedMisBench,將「epistemic resilience」定義為模型在 adversarial context 之下仍維持正確判斷的能力。這個 benchmark 收錄 10,932 條醫療題目項目,以及 48,889 組 misleading context-option pairs,涵蓋 medical reasoning、agentic capability 和 patient-journey evaluation,用來測試模型面對看似合理但其實錯誤的上下文時會點樣改答案。

論文最關鍵的訊息,是不少模型本來答啱,但加入聚焦式誤導句子後便放棄正確答案。11 個 model configurations 的平均準確率,由原題的 71.1% 跌到 38.0%,attack success 達 51.5%;其中 authority-framed falsehoods 的攻擊成功率有 69.5%,exception-poisoning claims 也有 64.1%,顯示帶有權威語氣或規則例外包裝的錯誤資訊尤其危險。

對想使用醫療 AI 的讀者來說,這個項目的價值不在於提供新診斷模型,而是補上現有醫療評測的盲點:高分醫學考試 benchmark,未必代表模型在真實健康資訊環境中仍可靠。研究還找來來自 7 個國家的 14 人臨床小組覆核,認為 38.2% 檢視個案存在嚴重潛在傷害,這令 MedMisBench 很適合用作醫療模型安全測試、紅隊檢驗,以及部署前風險篩查。

  • 核心批評:現有 benchmark 多測知識正確率,較少測 misleading context 下是否仍能守住正確判斷
  • 新增 framing:用 epistemic resilience 專門量度模型抗誤導能力
  • 數據規模:10,932 個醫療題目項目、48,889 組 misleading context-option pairs
  • 主要結果:平均準確率由 71.1% 跌至 38.0%,attack success 為 51.5%
  • 引用模型包括 ChatGPT、Gemini 等醫療文字理解與生成能力較強的 LLMs

Paper: https://arxiv.org/pdf/2606.12291

Categories: Gemini, OpenAI, Agentic, Medical醫學, 多模態模型, 安全, Dataset 數據集

[技術文章] KAIST 與 Qualcomm 重塑長影片 RAG 評測

Hero image preview

這項研究由 KAISTQualcomm AI Research、Qualcomm Korea 團隊合作提出,聚焦長時間第一身影片中的 Retrieval-augmented generation(RAG)。作者指出,現有 VideoRAG 常沿用「每條查詢只配一種 modality 與一種 temporal granularity」的固定範式,但長影片的證據片段差異很大,單一設定未必適合全部片段;加上不少既有 benchmark 的問題甚至不用看影片也能答中,令最終分數難以反映檢索是否真的做對。

因此,團隊提出 V-RAGBench,把資料整理成 ⟨query, evidence chunk, answer⟩ triplets,明確分開查詢、證據片段與答案。這種設計針對的是過去「只看最終回答正確率」的盲點,讓研究者可以更忠實地分開檢查 retrieval 與 generation,知道系統究竟是靠對的影片片段,還是靠語言偏見、常識或靜態線索作答。

方法上,作者再提出 CARVE。它不是替整條查詢預先選定一種設定,而是讓多個 retriever 以不同 modality 與 granularity 並行工作,再用 chunk-adaptive reranking 為每個 evidence chunk 挑出最合適的 winning configuration。之後,這些片段會連同各自勝出的設定一併送入 generator,形成 interleaved evidence,令檢索階段的片段級決策延續到生成階段。

對想使用這個項目的人來說,切入點很清楚:先用 V-RAGBench 測試自己的 VideoRAG 流程,分開看檢索與生成表現;若系統目前仍採用查詢級單一設定,可再比較 CARVE 這種片段級配置方式。這種思路較適合長影片問答、egocentric video 分析,以及需要從多模態證據中找出正確時間片段的 Agentic 系統。

  • V-RAGBench 以 evidence chunk 為核心,補足舊 benchmark 無法準確檢查檢索對錯的問題
  • CARVE 改為片段級選擇 configuration,不再假設一條查詢只需一套 modality/granularity
  • 作者指出 generator 最後接收的 chunks 會交錯來自多種 configuration,這是 query-level 方法做不到的
  • 論文稱 CARVE 勝過 8 個近期 VideoRAG baselines,顯示片段級決策在長影片檢索更有優勢

整體來看,這項工作不是單純再加一個 VideoRAG 方法,而是先批評舊有評測與建模範式,再用新 benchmark 和新 retrieval framing 一起修正問題。如果你關心的是長影片 RAG 到底應該取回什麼、以及取回後怎樣交給模型使用,這項研究提供了相當清晰的分析框架。

Paper: https://arxiv.org/pdf/2606.13141

Categories: Agentic, Video, AI productions, RAG, 多模態模型, 模型, 新聞, 框架, Dataset 數據集

MBench 專看長影片世界模型記憶力

Teaser

現時不少長影片評測,仍偏向單幀畫質或短距離 prompt following;畫面一旦切走、角色離鏡,很多模型便容易在回到同一情境時「失憶」。MBench 這個benchmark正是針對這個盲點而設,聚焦 long-video world models 的 memory capability,檢查模型能否在時間拉長後維持一致的世界狀態。

作者把問題拆成三個互相獨立但又彼此關連的方向:Entity Consistency、Environment Consistency、Causal Consistency。這種設計比籠統地給一個總分更有分析價值,因為你能看清模型究竟是忘記角色外觀、搞亂場景空間,還是未能延續畫面外仍在發生的物理過程;同時它再分成 MBench-A 與 MBench-T,分別對應 action-conditioned world models 與 text-segment-conditioned 長影片續寫模型。

如果你本身有影片生成或世界模型項目,這個儲存庫的用途很明確:先準備模型輸出,再用 mbench 這套 contract-driven、plugin-based CLI 跑完整評測流程。儲存庫已提供 12 個官方 metric implementation,亦整合 VLM trigger judge,代表它不只是論文概念,而是一套可落地比較不同模型表現的評測工具鏈。

  • 項目類型:這是一個 benchmark/評測工具鏈,用來量度長影片世界模型是否具備穩定記憶與時序一致性。
  • 創新位置:不是只看畫面質素,而是把「長時間記住世界」正式定義成三條 capability axes。
  • 適合場景:長影片生成、world model 研究、模型比較、內部驗證新版本退步與否。
  • 可讀性高:MBench-A 與 MBench-T 將不同條件設定分開,較容易知道模型失分原因。

從評論角度看,MBench 的價值在於它批評了舊有固定範式:只獎勵 single-frame quality 或 short-horizon prompt following,卻未有檢驗跨鏡頭、跨時間的持續記憶。若你關心的模型包括各類 long-video world models、action-conditioned world models,以及 text continuation 類影片模型,這個項目很值得納入測試流程;不過目前提供的資料以 benchmark 與評測框架為主,是否能全面代表所有真實創作場景,仍要配合你自己的生成任務一併觀察。

GitHub: https://github.com/study-overflow/MBench

Paper: https://arxiv.org/pdf/2606.00793

Categories: 開源, Video, 工具, Win, , 模型, 視頻模型, 世界模型, 清華大學, 框架

ClinHallu 拆解醫療 MLLM 幻覺來源

ClinHallu logo

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具,目標不是只計算答對率,而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查,作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識,還是把資訊串連時推錯,因此把問題重組成 stage-wise 診斷。

這個項目的核心做法,是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段,再配合 structured CoT annotations 與 stage-replacement interventions 觀察:如果只修正其中一段,最終答案會否改善。這種設計比單看答案更有分析力,因為它直接對應三種常見錯誤來源:visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances,並提供評測流程。想試這個項目的人,較合理的路線是先選定 datasets 內要跑的資料集,再對照 models.gold cotmodels.model cotmodels.judge 的設定,之後查看 results 內的 model cot 與 eval 輸出;若只想生成替換後的 jsonl,也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析,不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示,Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列,Avg Acc 為 80.1,而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下,而是提醒你:同一模型可能答案不差,但在某個階段的 hallucination rate 仍然偏高,之後微調或加防護時就有更清晰方向。

  • 不是只看答對率:它會拆解模型在哪個推理階段出錯。
  • 方法有辨識度:用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
  • 場景很明確:適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
  • 相關模型完整:結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手,ClinHallu 並不屬於那一類;它更像一把量尺,專門檢查模型推理鏈哪裡開始失真。對研究團隊來說,這比只知道「模型有幻覺」更有用,因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正,連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub: https://github.com/alibaba-damo-academy/ClinHallu

Paper: https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, 清華大學, Dataset 數據集

OmniVideo-100K:增強影音推理訓練數據集

Framework Overview

現時不少影音問答資料建立流程,普遍沿用「video-caption-QA」範式:先把影片切成短片段,再分開寫視覺與音訊描述,最後生成 QA。論文作者認為這種做法容易出現 modality bias、temporal misalignment,同一角色在不同片段亦可能描述不一致,令問題多數只圍繞局部事件,難以考驗長時間跨度的 audio-visual reasoning。

OmniVideo-100K 是一個 Dataset 數據集,目標是為 Multimodal Large Language Models (MLLMs) 提供較完整的影音推理訓練材料。它提出兩個核心機制:Entity-Anchored Video Scripting 先把原始影片整理成結構化 script,包括摘要、主要實體清單,以及帶時間戳的分段音畫描述;Clue-Guided QA Generation 則先抽取跨片段、跨模態線索,再生成較複雜的問答。

這種設計的關鍵,不在於題目數量大,而在於先整理證據鏈再出題。對比舊方法把長文本理解和 QA 合併成一步,OmniVideo-100K 把線索挖掘獨立出來,較有機會產生涉及因果、未來預測與假設推理的題目,而不只是問畫面中「見到乜」。

如果你想測試這個項目,可以先留意 Hugging Face 上的 OmniVideo-100K 與人手驗證的 OmniVideo-Test,看看資料結構是否適合自己的訓練流程;做研究的人則可直接比較模型在外部 benchmark 的變化。論文提到,VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B 經此資料集微調後,在 OmniVideo-Test 最多提升 20.59%,在 Daily-Omni、JointAVBench 也有最多 12.64% 增幅,同時盡量保留在 Video-MME 這類一般影片 benchmark 的能力。

  • 針對舊式「video-caption-QA」流程的三個痛點:modality bias、temporal misalignment、敘事不連貫
  • 用 structured scripts 加 entity list,補回跨片段指代一致性與聲音來源對應
  • 任務覆蓋 10 類,包括 FGP、STD、CU、CP、SA、ESO、SM、CR、FP、HR
  • 適合做影音理解、跨模態推理、指令微調資料研究的人參考
  • 相關模型包括 VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B

整體來看,這個項目的價值在於它不只新增一批資料,而是重寫影音 QA 資料的組織方法。若你關心的不是單張畫面問答,而是影片內角色、聲音、事件先後與推論之間的連結,OmniVideo-100K 會比一般自動合成資料集更有研究參考價值。

Categories: 開源, Qwen, Video, Audio, 工具, AI productions, 多模態模型, , 模型, 模型訓練, 語音, Dataset 數據集

[技術文章] DeepMind 談 AGI 走向 ASI

Hero image preview

Google DeepMind 這份《From AGI to ASI》不是教人立即部署某個工具,而是用研究報告形式討論:當 Artificial General Intelligence(AGI)達到人類水平後,人工智能會否再一路推進到 Artificial Superintelligence(ASI)。文中把 ASI 描述為在智能與認知能力上,超越大型人類組織的系統,並以 Universal AI 作為較理論化的參考終點。

這份內容主要解決的問題,是把「AGI 之後會發生甚麼」由抽象想像整理成可討論的技術路線。作者提出四條可能路徑:擴展 AGI、AI paradigm shifts、recursive improvement,以及由大規模 multi-agent collectives 湧現出 ASI,同時提醒每條路都可能受算力、協調、方法轉換或其他瓶頸影響。

對一般讀者來說,閱讀這份報告可先集中三部分:AGI 與 ASI 的定義、四條路徑的差異、以及作者列出的 open research questions。它較適合關心 AGI、AI 安全、科技政策與長期技術趨勢的人,而不是尋找即裝即用模型或開發教學的讀者。

  • 由 Google DeepMind 撰寫,主題是 AGI 到 ASI 的演進框架
  • 核心內容包括四條技術路徑與可能 bottlenecks
  • 強調數碼智能的優勢會隨 compute 增加而擴大
  • 不把社會改變視為單一步跳躍,而可能是一連串轉變

文章沒有提供基準分數或實驗排行榜式的性能比較,重點在概念整理與研究方向判斷。報告亦明確表示,由於不確定性很高,未來 AI 進展可能繼續加速,因此全球、跨學科的準備工作仍有大量項目需要推進。

Paper: https://arxiv.org/pdf/2606.12683

Categories: Google, 新聞, AGI

Page 1 of 94
1 2 3 94