
現時不少 AI reviewer 評測,默認接受論文的摘要、敘事結構與貢獻陳述,並直接輸出分數或意見;ARGAR 指出這種固定範式未必真正在看科學內容,而可能被 presentation-level content 牽動。作者因此提出 ARGAR(Adversarial Repackaging Gaming AI Review),用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。
這個項目較像一個研究框架加實驗工具,而不只是單一資料集;它要解決的,是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search:每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構,再比較新版與 baseline 的審稿結果,但 scientific content held fixed。
若想測試它的思路,最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下,經過不同包裝後,AI review 怎樣波動,也能看清每一輪修改決策如何形成。
- 類型定位:研究框架兼工具,用來檢驗 AI reviewer 是否容易被論文包裝影響
- 方法重點:只改 abstract、framing、contribution statements、narrative structure,不改 scientific content
- 輸出結構:保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
- 適合場景:AI safety、LLM evaluation、學術審稿自動化研究
- 限制提醒:項目明確反對把結果用於真實投稿操控,定位是 controlled experiments
創新之處在於它不是討論「AI 審稿準不準」的籠統問題,而是把舊範式拆開,專門測 presentation attack 對評分的影響。從儲存庫資料看,這種設計也方便研究者重播整個攻擊過程,比只看最終分數更有分析價值。
性能數字在這份儲存庫摘要未完整展開,因此不宜代作者下結論;不過評測設計本身已很有辨識度,因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面,項目透過 LiteLLM 路由不同 LLM provider,可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model,亦配合 ICLR、NeurIPS、ICML 風格的 review generation。








