约翰·卡马克谈开源与反AI激进主义

基本信息

作者: tzury
评分: 187
评论数: 269
链接: https://twitter.com/id_aa_carmack/status/2032460578669691171
HN 讨论: https://news.ycombinator.com/item?id=47367463

导语

随着生成式 AI 技术的快速发展，围绕其版权归属与训练数据的争议日益激烈。作为技术领域的资深从业者，John Carmack 近期公开表达了对激进反 AI 倾向的反对，并重申了对开源模式的坚定支持。本文将梳理 Carmack 的核心观点，分析他对技术共享与行业壁垒的看法，帮助读者在复杂的舆论环境中，理清技术演进与知识产权之间的现实逻辑。

文章中心观点 John Carmack 认为，开源精神与 AI 训练数据的自由使用本质上是一致的，反对 AI 训练的激进主义者不仅误解了技术进步的规律，还试图构建一种阻碍创新的“封闭花园”，而技术发展应遵循务实、迭代和共享的路径。

支撑理由与边界条件

技术发展的同源性（事实陈述）： Carmack 指出，现代软件大厦建立在无数前人的开源代码之上。程序员每天都在阅读、复制和修改他人的代码来构建系统。AI 模型（尤其是大语言模型）本质上是人类知识压缩的另一种形式。如果允许人类学习开源代码并重写逻辑，却禁止机器“学习”这些代码的权重，这在逻辑上构成了双重标准。
- 反例/边界条件： “合理使用”在法律上并非绝对。如果 AI 输出的内容与训练数据高度相似（过拟合），则构成了侵权而非学习。此外，GPL 等传染性开源协议要求衍生作品必须开源，而目前的 AI 模型通常不公开训练数据和权重，这确实违反了部分开源协议的精神。
反“数据激进主义”的务实立场（作者观点）： Carmack 批评那些反对 AI 使用数据的激进主义者，认为他们试图通过法律或道德壁垒来“圈地”。他认为这种做法类似于早期的软件专利战，最终只会导致行业停滞，形成只有巨头才付得起版权费的“护城河”，反而扼杀了开源社区和小开发者的生存空间。
- 反例/边界条件： 艺术家和创作者的担忧并非毫无道理。如果 AI 能够以近乎零的成本无限生成特定风格的作品，确实会破坏原创作者的生计。这种“创造性破坏”虽然符合技术演进规律，但需要社会机制（如版税改革或全民基本收入）来缓冲，而非单纯的技术傲慢。
工程实用主义优于意识形态（作者观点）： 作为一名顶尖工程师，Carmack 更看重结果和迭代。他认为过度纠结于数据的“纯洁性”或“道德许可”会阻碍 AI 技术的快速进化。他倾向于通过实际应用（AGI）来推动技术边界，而不是陷入无休止的伦理辩论。
- 反例/边界条件： 忽视伦理和偏见会导致技术产品在实际落地时遭遇严重反弹。例如，微软的 Tay 聊天机器人或 Google 的 Gemini 生成历史错误图像，证明了缺乏对训练数据价值观的审视，不仅不能推动技术，反而会导致产品失败。

深度评价

1. 内容深度与论证严谨性 Carmack 的观点具有典型的“工程师直觉”，直击技术伦理的核心矛盾——人类学习与机器学习的界限。他的论证逻辑非常严密：如果代码是开源的，目的是为了被人类理解和复用，那么机器读取并理解这些代码（即训练模型）不应被视为侵权。然而，论证在法律层面存在跳跃。法律不仅看“过程”是否抄袭，更看“结果”是否构成实质性相似。AI 的“黑盒”特性使得我们难以证明它没有“记忆”而是“学习”了代码。因此，虽然技术哲学上自洽，但在现行知识产权法框架下，他的观点是激进且缺乏法律兜底的。

2. 实用价值与创新性 文章的价值在于打破了一种“伪善”的沉默。在科技巨头纷纷因版权诉讼而变得小心翼翼时，Carmack 提供了一种反脆弱的视角：不要试图在旧世界的废墟上修修补补，而应加速新世界的到来。对于开发者而言，这意味着在构建 AI 应用时，不应被过度的“数据洁癖”束缚，而应关注模型能力的提升。但他并未提出解决版权冲突的具体技术方案（如数据水印或归属追踪），这稍显遗憾。

3. 行业影响与争议点 Carmack 的言论在 AI 社区（尤其是技术乐观主义者中）具有极大的号召力，可能会加剧“技术加速主义”与“数据保护主义”的两极分化。

争议点： 核心争议在于**“开源”的定义权**。开源促进会（OSI）目前正在重新定义“开源 AI”，Carmack 的观点倾向于“ weights must be open”（权重必须开源），但忽视了数据来源的合规性。这可能导致未来出现两条平行线：一条是合规但昂贵的“企业 AI”，一条是强大但法律灰色的“开源/野生 AI”。

4. 可读性 Carmack 的表达一如既往地直率、清晰，没有学术术语的堆砌，用通俗的类比（如阅读代码）解释复杂的技术伦理问题，极具说服力。

实际应用建议

企业合规策略： 不要盲目追随 Carmack 的“完全开放”。在商业应用中，仍需建立数据来源审查机制，区分“公有领域数据”、“授权数据”和“受版权保护数据”，以降低法律风险。
技术对齐： 开发者应关注“数据遗忘”技术，即在模型训练后移除特定版权内容的影响，以在 Carmack 提倡的“广泛学习”和法律合规之间寻找平衡点。

AI Stack

约翰·卡马克谈开源与反AI激进主义

约翰·卡马克谈开源与反AI激进主义

基本信息

导语

评论

应用场景

AI/ML项目