Anthropic与OpenAI的博弈及AI基础设施投资趋势分析


基本信息


摘要/简介

我们与 a16z 的 AI 投资负责人坐下来,就到底发生了什么进行了一次内容广泛的对话。


导语

在 AI 基础设施投资逻辑发生深刻变化的当下,如何在“风险投资”与“增长投资”之间做出取舍,已成为决定初创公司生死的关键命题。本文基于 a16z 合伙人 Martin Casado 与 Sarah Wang 的深度对话,剖析了 Anthropic、OpenAI 等头部企业的路径差异,并探讨了 Noam Shazeer 等关键人物的动向。通过阅读,读者可以厘清当前硅谷的资本流向,理解 ASIC 经济学等技术底层的商业逻辑,从而在激烈的算力与模型竞争中找到更稳健的生存策略。


摘要

这篇文章是基于 a16z 投资人 Martin Casado 和 Sarah Wang 的对话,深入探讨了当前人工智能领域的投资逻辑、市场格局以及技术趋势。核心观点可以总结为以下几个“惨痛的教训”和关键洞察:

1. 应用层的爆发与“Cursor”现象 目前 AI 最确定的成功发生在应用层,以代码编辑器 Cursor 为代表。这证明了 AI 能创造前所未有的用户体验,不仅提高了效率,还改变了工作流。投资人的关注点已从“模型能否做某事”转变为“能否构建用户真正喜爱的产品”。

2. 硬件与算力经济:ASIC 的崛起 随着算力需求激增,通用 GPU(如 NVIDIA)虽占主导,但**专用集成电路(ASIC)**正变得越来越重要。大厂(如 Google、Amazon、Microsoft)都在自研芯片。长远来看,ASIC 在特定工作负载上具有更优的成本和能效比。这预示着未来的算力市场将不仅是通用芯片的竞争,专用硬件也将占据关键生态位。

3. 模型之争:OpenAI vs Anthropic 与“增长”策略 对话比较了 OpenAI 和 Anthropic 的发展路径。

  • OpenAI (Venture/VC 模式): 追求指数级增长、高风险高回报、快速迭代和商业化(如 ChatGPT 的普及)。
  • Anthropic (Growth/稳健模式): 更注重安全、对齐以及长期稳健的发展,往往服务于企业级或更谨慎的部署。 这两种模式代表了 AI 创业公司在资本结构和战略选择上的分野,没有绝对的优劣,但在当前资本环境下,VC 模式(OpenAI)似乎在影响力上暂时领先。

4. 基础模型公司的残酷现实 投资基础模型公司极具挑战。虽然它们价值巨大,但由于训练成本极高且竞争激烈(红海市场),很难实现传统的风投式超额回报。许多基础模型公司可能会逐渐演变成类似公用事业公司,利润率被高昂的算力成本压缩。

5. Noam Shazeer 与 AI 人才的稀缺性 Noam Shazeer(Character.AI 创始人,后回归 Google)被视为 AI 领域的顶级天才。他的经历反映了当前市场对顶级人才的争夺白热化。对于大厂来说,收购初创公司有时就是为了“ acqui-h


评论

中心观点

本文的核心论点是:AI 行业的发展重心正从通用的算力堆砌转向垂直整合与商业价值验证。未来的竞争优势将不再仅取决于模型参数规模,而是取决于企业能否利用专有数据、特定工作流闭环或专用芯片(ASIC)构建结构性壁垒,并解决技术落地中的成本效益问题。

深度评价

1. 支撑理由

  • 理由一:从“规模定律”向垂直整合的路径演进

    • 内容深度: a16z 合伙人指出了投资逻辑的关键转折:单纯依赖基础模型性能提升带来的边际效益正在递减。文章通过对比 Anthropic 与 OpenAI 的发展路径,分析了单纯“模型即服务”模式的局限性。
    • 论证逻辑: 这反映了产业链价值的下沉。类似于互联网价值从连接层向应用层迁移,AI 时代的价值正从模型层向“模型+工作流”层转移。
    • 事实陈述: 文章引用的 Cursor 和 World Labs 等案例,展示了将模型能力封装进特定生产力工具或模拟环境中的趋势,而非仅提供 API 接口。
  • 理由二:ASIC 经济学是优化算力成本的必要手段

    • 实用价值: 这是一个侧重于基础设施成本的观点。Martin Casado 从投资人角度指出,在大规模应用场景下,通用 GPU 的成本结构可能制约单位经济模型的健康度。
    • 论证逻辑: 当业务规模达到特定量级(如 Google Search 或 OpenAI),定制化芯片(ASIC)能显著降低边际成本,从而在成本端构建优势。
    • 作者观点: 作者认为,未来的 AI 头部企业需要具备系统整合能力,可能需要通过自研芯片来避免利润被硬件成本侵蚀。
  • 理由三:应用层交互逻辑的迭代

    • 创新性: 文章讨论了“Thinking Machines”和 Cursor,这不仅是工具功能的增加,而是交互逻辑的改变。高效的 AI 产品倾向于让系统进行后台计算和迭代,而非单纯依赖用户的即时指令。
    • 行业影响: 这指出了 AI 应用的潜在形态——即具有自主代理能力的复杂系统,而非单一的对话窗口。

2. 反例与边界条件

  • 反例一:通用模型的通用性优势

    • 边界条件: 若基础模型在未来实现跨越式能力提升,许多垂直领域的专用模型或微调模型可能面临被替代的风险。例如,若通用模型在特定专业领域(如医疗诊断)达到专家级水平,垂直领域的初创公司可能失去技术护城河。
    • 推断: a16z 作为早期投资机构,其观点可能倾向于强调应用层投资价值,这与他们在基础模型层的仓位有关。
  • 反例二:ASIC 研发的高固定成本风险

    • 边界条件: ASIC 的经济效益建立在极高且稳定的业务量之上。若 AI 需求波动或算法架构发生重大变更(例如不再依赖现有的矩阵乘法架构),巨额的芯片研发投入可能成为财务负担。
    • 事实陈述: 历史上部分互联网巨头尝试自研芯片,但因未能达到预期的规模门槛,最终导致成本效益不如通用硬件。

3. 维度细分评价

  • 内容深度: 较高。文章超越了行业热度的表面叙事,深入探讨了单位经济模型和资本开支结构。特别是关于“Growth”资金与“Venture”资金属性错配的分析,解释了部分 AI 公司在融资后期面临的困境。
  • 实用价值: 对创业者而言,核心启示在于从“卖模型”转向“卖工作流”;对投资者而言,指出了关注推理成本和基础设施自建潜力的重要性。
  • 创新性: 将“ASIC Economics”作为应用护城河的一部分进行讨论,这是通常在巨头内部(如 Google/Meta)被重点关注但在公开讨论中较少提及的视角。
  • 可读性: 文章采用对话体,流畅自然,但信息密度较高,读者需要具备 AI 基础设施和创投背景知识才能充分理解。
  • 争议点: 文章对 Noam Shazeer 离开 Google 创立 Character.ai 的案例讨论可能存在截断,未完整呈现该案例的具体评价或结论。

技术分析

技术分析:AI 产业链的价值转移与竞争壁垒重构

1. 核心观点深度解读

主要观点: 对话的核心在于分析 AI 行业正在经历的价值链重组。Casado 和 Wang 指出,基础模型层正在演变为高风险、高资本支出的领域,而价值创造和投资回报正在向两个方向转移:垂直整合的头部企业(如 OpenAI/Anthropic)和拥有明确应用场景与工作流集成能力的应用层/基础设施层(如 Cursor/World Labs)。

核心思想: 文章传达了“苦涩教训”的投资逻辑:在 AI 发展阶段,传统的 SaaS 估值逻辑面临挑战。单纯依赖数据网络效应的软件护城河,在模型快速迭代的背景下可能失效。投资者需要区分“VC 模式”(追求高倍数回报,适合应用层)和“Growth 模式”(追求大规模增长,适合基础层),并警惕陷入“中间层陷阱”——即在模型之上做微薄增值却无法形成闭环的中间商。

观点的创新性与深度: 该观点打破了“AI 是软件的延续”的常规认知,指出了 AI 经济学的本质是**“算力即资本”边际成本变化之间的矛盾。其深度在于重新定义了竞争壁垒:从传统的代码或分发优势,转变为对模型的所有权工作流的深度集成**。

重要性: 这一观点为创业者和投资者提供了关键的决策参考。在当前资本环境下,错误的定位(例如仅在基础模型之上做简单的包装)可能导致商业模式的不可持续。

2. 关键技术要点

涉及的关键技术或概念:

  • ASIC Economics(ASIC 经济学): 指为了追求极致的计算效率(TCO),科技巨头通过自研芯片(如 Google TPU, Meta MTIA, Amazon Trainium/Inferentia)来降低对外部 GPU 的依赖,这构成了更深层的成本优势。
  • Synthetic Data(合成数据): Anthropic 等实验室解决数据瓶颈的关键手段,即利用模型生成高质量数据来训练下一代模型。
  • Thinking Machines(思维机器): 指代 OpenAI o1 等具备推理能力的模型,通过强化学习让模型展现出类似“系统2”的规划能力。
  • World Labs & Spatial Intelligence(空间智能): 李飞飞团队的研究方向,致力于让 AI 理解三维物理世界,超越语言和二维图像的处理范畴。

技术原理与难点:

  • 推理时的搜索: o1 等模型的技术原理是在推理阶段引入更长的搜索链和验证机制。技术难点在于计算成本高昂(推理成本上升)以及难以通过传统的监督微调(SFT)来提升这种能力,必须依赖强化学习(RL)。
  • 垂直整合: 技术难点在于全栈优化。为了达到最优性能,必须同时控制底层硬件(ASIC)、中间层(模型架构)和上层(用户体验)。

技术创新点: 文章强调的创新点在于从**“模型即服务”向“模型即产品”的转变**。技术创新不再仅仅关注准确率的提升,而是如何将模型深度嵌入到工作流中,使产品本身成为模型获取数据反馈的闭环(如 Cursor)。

3. 实际应用价值

对实际工作的指导意义:

  • 创业定位: 建议避免与基础模型进行正面竞争,同时也应避免做容易被模型功能覆盖的“套壳”应用。应寻找模型目前无法解决的特定场景问题。
  • 产品策略: 必须建立私有数据飞轮。如果产品的使用能够产生独特数据,进而优化模型表现,且这种优化难以被通用模型复制,产品才具备长期价值。

应用场景:

  • 代码生成(Cursor): 作为垂直整合的典型案例,它不仅调用模型,还管理代码库上下文,并利用用户反馈来优化补全体验。
  • 物理世界模拟: 涉及机器人技术、自动驾驶及 3D 内容生成领域。

需要注意的问题:

  • 平台风险: 如果应用完全依赖第三方模型(如 OpenAI),一旦上游模型更新并原生集成了类似功能,下游应用可能面临被替代的风险。
  • 单位经济模型: 在资金成本上升的环境下,单纯依靠高额算力投入来换取增长的模式面临可持续性挑战。

4. 行业影响分析

对行业的启示:

  • 基础设施层的集中化: 拥有巨额资本(数千亿美元级别)的公司将在基础设施建设中占据主导地位。
  • 应用层的分化: 能够利用 AI 深度重构工作流的应用将脱颖而出,而简单的工具类应用将面临整合压力。

最佳实践

最佳实践指南

实践 1:拥抱“苦涩教训”,优先投资计算而非模型架构的微调

说明: 基于 Rich Sutton 的“苦涩教训”,历史证明,利用通用计算能力(算力)和数据的扩展性,往往比试图通过特定的人类先验知识或复杂的模型架构设计更能带来长期的性能突破。在当前的 AI 竞赛中,应押注于能够有效利用大规模算力的通用方法,而非试图通过“技巧”来规避计算成本。

实施步骤:

  1. 在技术路线上,优先考虑能够随着算力增加而线性或超线性扩展的算法。
  2. 在资源分配上,确保预算的绝大部分用于获取 GPU 算力和高质量数据,而非过度依赖人工特征工程。
  3. 评估项目时,寻找那些能够通过增加计算量来持续提升性能上限的“可扩展”系统。

注意事项: 这并不意味着在早期阶段不需要算法创新,而是指在长期竞争中,算力杠杆效应最终会战胜架构技巧。


实践 2:在模型训练中最大化“推理时计算”

说明: a16z 强调了从“预训练”向“推理”的价值转移。未来的 AI 系统不应仅仅依赖于静态模型的训练,而应通过在推理阶段投入更多计算资源(如 OpenAI o1 的思维链)来获得更好的结果。这种“思考”能力是通往 AGI 的关键路径,也是目前尚未被充分挖掘的护城河。

实施步骤:

  1. 开发或采用支持长上下文和复杂推理链的模型架构。
  2. 在产品设计中,允许系统在回答用户问题前消耗更多的 Token 和计算时间进行自我验证和反思。
  3. 重新评估成本结构,将部分原本用于预训练的预算转移到提升推理阶段的计算密度上。

注意事项: 增加推理计算会增加延迟和单位成本,需要通过技术优化(如 Speculative Decoding)来平衡用户体验与模型智能水平。


实践 3:垂直整合:从模型到专用芯片(ASIC)的深度优化

说明: 以 Anthropic 和 Google 为例,当模型规模达到一定程度时,通用的 GPU 可能无法满足成本或效率需求。最佳实践包括向产业链上游延伸,通过设计或采用专用的 ASIC(特定应用集成电路)来获得比通用芯片更好的性能功耗比和成本优势。

实施步骤:

  1. 评估现有模型的负载特性,确定是否存在通过专用硬件加速的需求。
  2. 对于头部企业,考虑组建芯片设计团队或深度绑定芯片制造商进行定制。
  3. 对于初创企业,关注那些能够利用新型专用硬件架构的软件栈,以利用硬件带来的性能红利。

注意事项: 芯片研发具有极高的资金门槛和技术风险,仅在模型负载固定且规模巨大时才具有正向的 ROI(投资回报率)。


实践 4:利用 AI 重塑软件交互范式(从 Cursor 到 World Labs)

说明: AI 的价值不仅在于生成内容,更在于改变人机交互的方式。最佳实践是利用 AI 模型理解用户意图的能力,从传统的“图形用户界面(GUI)”转向“意图/自然语言界面”,甚至像 World Labs 那样构建对 3D 物理世界的理解。这不仅仅是功能的添加,而是交互逻辑的根本性重构。

实施步骤:

  1. 重新审视产品的核心工作流,寻找可以通过自然语言指令替代复杂点击操作的场景。
  2. 集成类似 Cursor 的能力,使软件具备“代理”性质,能够自主完成多步骤任务而非仅仅回答问题。
  3. 投资于多模态能力,使软件能够理解和处理图像、视频及空间数据,突破纯文本的限制。

注意事项: 新交互范式需要极高的模型可靠性,在完全自动化之前,必须设计好“人机回圈”的验证机制。


实践 5:构建基于“人才密度”的护城河(Noam Shazeer 效应)

说明: 讨论 Noam Shazeer(Character.AI 创始人,后回归 Google)的案例表明,在 AI 领域,顶尖研究人才的密度是核心竞争力。最佳实践是围绕关键人才构建团队,并给予他们足够的资源和支持。一个顶尖研究者的产出往往数倍于普通研究者,且能吸引更多顶尖人才。

实施步骤:

  1. 在招聘中,优先考虑那些有大规模模型训练经验或突破性研究记录的“明星”工程师。
  2. 建立扁平化的组织结构,减少行政干预,让核心研究人员直接掌控算力和数据资源。
  3. 创造允许激进尝试和失败的研究文化,以留住具有冒险精神的天才。

注意事项: 必须平衡个人英雄主义与团队协作,避免因过度依赖单一关键人物而导致的单点故障风险。


实践 6:重新评估“风投”与“增长”的投资逻辑

说明: 区分“风投逻辑”与“增长逻辑”在 AI 领域至关重要。风投逻辑(Venture)追求高风险、高回报、所有权保护;而增长逻辑更关注商业化和单位经济模型


学习要点

  • 在生成式AI时代,垂直整合(Vertical Integration)的商业模式(如自研芯片、模型与应用)正在取代单纯的模型层竞争,成为构建长期护城河的关键。
  • 拥有专有数据或具备生成合成数据的能力,将成为打破数据瓶颈并持续迭代模型的决定性竞争优势。
  • 随着模型能力的商品化,价值链将向应用层和基础设施层(如Cursor等开发工具)转移,能够解决具体工作流问题的产品将捕获最大价值。
  • 专用集成电路(ASIC)和模型优化的重要性日益凸显,通过硬件与软件的协同设计来降低推理成本,是AI应用实现大规模盈利的前提。
  • 创业公司应避免在通用大模型上与巨头进行消耗战,而应利用“小模型+特定工作流”在垂直领域建立不对称优势。
  • AI发展的“苦涩教训”在于,单纯依赖算法扩展或工程技巧存在边际效应递减,唯有结合应用场景的系统性创新才能穿越周期。
  • 未来的AI巨头将不再仅仅由算法能力决定,而是由能否构建完整的“技术栈栈”(从算力到应用)的资本效率和执行力决定。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章