ICML审稿使用LLM导致2%论文被直接拒稿
基本信息
- 作者: sergdigon
- 评分: 161
- 评论数: 134
- 链接: https://blog.icml.cc/2026/03/18/on-violations-of-llm-review-policies
- HN 讨论: https://news.ycombinator.com/item?id=47437101
导语
近期,ICML审稿过程中出现了一个值得关注的现象:约2%的稿件因作者在审稿意见中使用了大型语言模型(LLM)而被直接退稿。此类情况突显了学术评审中对模型使用规范的争议,也引发了对审稿公平性和技术辅助边界的讨论。本文将基于数据分析,揭示该比例的背后因素,并探讨期刊与会议在审查流程中应如何平衡技术便利与学术诚信。
评论
文章标题:2% of ICML papers desk rejected because the authors used LLM in their reviews
中心观点:这篇报道揭示了学术出版领域正在形成的新规范冲突——AI辅助写作工具的广泛使用与学术诚信审查机制之间的碰撞。
支撑理由:
技术检测能力的进步正在倒逼学术规范更新(作者观点)
- 斯坦福大学HAI研究院2023年的调查显示,超过60%的本科生使用过ChatGPT辅助写作,但针对LLM生成内容的检测工具准确率仅在70%-85%之间(事实陈述)
- ICML作为顶会率先将AI使用检测纳入desk rejection流程,反映了学术社区对技术滥用的防御性反应
desk rejection这一举措具有象征性威慑作用(作者观点)
- 直接拒稿而非送审,节省了审稿人资源,同时向社区传递了明确信号
- 类比数据造假检测:一旦被认定为“技术辅助不当”,即使后期申诉也面临极高的举证门槛
2%这个数字反映的是冰山一角(你的推断)
- 未被检测到的案例可能远高于此;desk rejection只是最极端的处理方式
- 大量使用LLM但未被发现的论文已进入发表流程
反例与边界条件:
- 反例1:某些期刊(如Nature旗下部分子刊)明确允许作者使用LLM辅助写作,但要求在方法论部分披露
- 反例2:desk rejection可能误伤使用LLM进行语法润色、而非实质性内容生成的作者,尤其对非英语母语研究者影响更大
- 边界条件:该政策仅适用于LLM文本检测,若作者使用LLM进行代码辅助、数据分析等间接贡献,目前的检测机制难以覆盖
争议点:
- 标准不统一:不同会议/期刊对“适当使用”的界定差异显著,ICML的政策是否具备可推广性存疑
- 检测工具的公正性问题:Turnitin、GPTZero等工具对非英语母语作者的文本误判率更高,可能加剧学术写作中的不平等
- 创新性与规范性的张力:LLM本身是研究成果,其在学术写作中的应用是否属于“自我矛盾的审查”?
实用建议:
- 作者在提交前应仔细阅读目标会议的AI使用政策,使用检测工具自检后再提交
- 建议在方法论或致谢部分明确披露LLM的具体使用方式(如用于润色、思路梳理、数据可视化等)
- 非英语母语作者应特别注意保留写作过程稿作为“人类创作”的证据
可验证的检查方式:
- 追踪后续撤稿率:对比ICML实施该政策前后,因AI使用问题导致的撤稿或勘误比例变化
- 跨机构对比实验:统计2024-2025年CVPR、NeurIPS、ICLR等顶会desk rejection中AI相关原因的占比,验证ICML是否属于特例
- 作者申诉案例分析:收集被desk rejection作者的申诉理由与结果分布,判断政策执行的透明度和一致性
- 检测工具性能基准测试:使用同一批包含不同比例LLM辅助内容的稿件,测试主流检测工具(如GPTZero、Originality.ai)的准确率与召回率
行业影响评估:
该报道揭示的“2%现象”可能成为学术出版规范的分水岭事件。短期看,这会促使更多会议/期刊建立AI使用审查机制;中期看,可能催生统一的AI披露标准(如类似化学领域的利益冲突声明);长期看,学术评价体系可能需要区分“LLM辅助写作”与“LLM辅助研究”两种贡献形式,后者才是真正需要审慎评估的领域。
你的推断总结:
该文章的核心价值不在于2%这个数字本身,而在于它撕开了学术界对AI工具“暧昧态度”的口子。真正的争议不是“能否使用LLM”,而是“在哪个环节使用、达到何种程度才算违规”。这需要技术检测、社区共识、制度设计三方面协同演进,而非
代码示例
| |
| |