Nature视角:CuspAI利用AI搜索材料并获1亿美元融资
基本信息
- 来源: Latent Space (blog)
- 发布时间: 2026-02-25T17:36:18+00:00
- 链接: https://www.latent.space/p/cuspai
摘要/简介
编者注:CuspAI 在9月完成了1亿美元A轮融资,据传已达到独角兽估值。他们的顾问阵容星光熠熠,从杰弗里·辛顿到杨立昆,团队也由深耕各领域的专家组成。
导语
将自然界视为一台计算机,为材料科学引入了全新的计算范式。CuspAI 在获得 1 亿美元融资并组建了由图灵奖得主领衔的顾问团队后,正试图利用生成式 AI 解决气候技术中的关键材料筛选难题。本文将深入探讨 Max Welling 教授如何通过算法加速新材料的发现与验证,帮助读者理解 AI 与基础科学结合所带来的产业变革与实际应用潜力。
评论
文章中心观点 该文通过访谈CuspAI创始人Max Welling,阐述了利用生成式AI将材料科学从传统的“试错法”转变为“逆向设计”范式,并以此为基础构建一个搜索即生成的材料数据库平台,旨在解决清洁能源技术中的关键材料筛选难题。
支撑理由与评价
1. 技术范式的转移:从“判别式”到“生成式”
- 支撑理由: 文章核心强调了利用生成扩散模型来探索化学空间。传统材料科学依赖DFT(密度泛函理论)计算或高通量筛选,本质上是基于已知结构的“判别”。Welling提出利用生成模型直接“构想”出符合目标性质(如带隙、吸附能)的新结构,这是一种根本性的方法论创新。
- 事实陈述: CuspAI团队结合了图神经网络与几何深度学习,这符合当前AI for Science的主流技术路径。
- 你的推断: 这种方法特别适用于无先例材料的发现,例如新型金属有机框架,能够显著缩短研发周期。
2. “搜索即生成”的平台化思维
- 支撑理由: 文章提到CuspAI不仅仅是一个算法实验室,更是一个类似于Google Search但针对材料的平台。客户提出需求(如“我需要一种高热稳定性的多孔材料”),平台生成并验证候选者。这种商业模式将AI技术与工业需求直接挂钩。
- 作者观点: 这种模式打破了学术界与工业界的壁垒,将材料发现变成了一种可服务化的商品。
- 实际案例: 类似于AstraZeneca与Isomorphic Labs的合作,CuspAI试图在材料领域复制这种“按需设计”的商业模式。
3. 算力与数据的高效利用
- 支撑理由: Welling作为前高通副总裁,强调了端侧AI和能效。文章暗示CuspAI在生成模型中融入了物理约束,这比纯数据驱动的黑盒模型更高效,减少了对昂贵湿实验和超算资源的依赖。
- 事实陈述: 获得Hinton和LeCun的顾问支持,证明了其在底层算法架构上的技术储备被顶尖同行认可。
反例与边界条件
- 边界条件1(合成可行性): AI生成的完美晶体结构在现实世界中可能极难合成。文章虽然提到了“合成性得分”,但并未详细阐述如何处理复杂的化学反应动力学问题。许多AI生成的材料在实验室条件下根本无法制备。
- 边界条件2(数据稀缺性): 对于某些特定的特种材料(如高温超导材料),高质量的实验数据极其匮乏。生成式AI依赖于大数据分布,在数据稀疏的区域,其生成的可靠性会大幅下降,甚至产生幻觉。
- 反例观点: 传统的高通量筛选(如Materials Project方法)虽然慢,但结果可靠。在某些对安全系数要求极高的应用场景(如航空发动机叶片)中,完全依赖AI生成而非物理验证的结构可能面临监管障碍。
多维度深入评价
1. 内容深度与严谨性 文章虽然由顶尖专家背书,但作为访谈性质,更多是宏观愿景的展示,而非技术细节的披露。对于具体的“几何深度学习如何处理分子旋转不变性”或“如何修正DFT计算误差”等硬核问题涉及较浅。论证逻辑在于“技术潜力+商业愿景”,而非具体的实验数据对比。
2. 实用价值与行业影响 对于行业而言,该文章揭示了材料科学数字化的最大风口。CuspAI的独角兽估值表明,资本市场开始认可“SaaS化材料研发”的商业模式。其实用价值在于为能源、化工企业提供了一个除自建实验室外的第三种选择(外包研发给AI平台)。然而,对于具体的算法工程师而言,文章的实操指导意义有限,更多是方向指引。
3. 创新性 最大的创新点在于将“生成式AI”与“搜索引擎”概念结合。以往的材料数据库(如ICSD)是存量检索,而CuspAI试图做的是增量检索。这不仅改变了工具,更改变了材料学家的工作流:从“在这个篮子里找苹果”变成了“种一棵长苹果的树”。
4. 争议点与不同观点
- 黑盒模型与物理规律的对立: 物理学家通常倾向于可解释性强的模型(如基于薛定谔方程的求解)。纯粹的黑盒生成模型可能违背热力学定律。Willing提到结合物理约束,但这在实际操作中往往会导致模型生成能力下降(即生成保真度与物理准确性的权衡)。
- 数据孤岛问题: 文章暗示平台将汇聚大量数据。但大化工巨头(如巴斯夫、陶氏)的核心配方数据是绝密的,他们是否愿意上传数据到CuspAI的云端平台进行联合训练是一个巨大的商业信任障碍。
实际应用建议
- 关注“合成性”指标: 在实际应用此类AI工具时,不要只看能量预测的准确性,要重点考察其是否集成了逆合成路线分析系统。
- 实验验证闭环: 建议采用“AI推荐+小规模湿实验验证+反馈微调”的迭代策略,切勿完全依赖AI生成的结果直接进行大规模投产。
- 数据安全策略: 对于企业用户,应要求平台提供私有化部署或联邦学习方案,确保核心配方数据不外泄。
可验证的检查方式
- 技术指标验证(实验): 观察CuspAI在未来6个月内是否在顶刊(如Nature/Science子刊)
技术分析
技术分析
1. 核心技术逻辑
范式转移:从筛选到生成 传统材料科学主要依赖于对已知化合物数据库的筛选或基于物理直觉的试错实验。CuspAI提出的技术路径在于利用生成式模型直接构建满足特定物理化学属性的晶体结构。这种方法不再受限于现有数据库,而是在无限的化学空间中进行搜索,将材料发现的过程从“查找”转变为“构造”。
物理感知的深度学习 技术核心在于将物理定律作为约束条件嵌入到深度学习模型中。这不仅仅是数据驱动的拟合,而是结合了第一性原理计算。通过这种方式,模型在生成新结构时,必须遵循热力学稳定性和几何可行性,从而保证了生成结果在物理上的有效性。
2. 关键技术架构
几何深度学习与等变性 材料结构属于非欧几里得数据(3D点云或图)。技术实现上采用了具备E(3)等变性的神经网络架构。这意味着模型对分子结构的旋转、平移操作保持预测的一致性,能够准确地处理3D原子坐标和对称性,避免了传统CNN在处理此类数据时的信息损失。
扩散模型的应用 利用扩散模型进行逆向设计。模型通过去噪过程,从随机噪声逐步恢复出符合目标属性(如特定的孔隙率、吸附能)的原子坐标。这实现了从“属性”到“结构”的端到端生成。
主动学习闭环 为了解决数据稀缺和验证问题,系统构建了一个计算与实验的闭环:
- 生成: 模型提出候选结构。
- 评估: 利用高通量DFT(密度泛函理论)计算或ML势函数进行快速筛选,评估能量和稳定性。
- 反馈: 将计算结果反馈给模型以优化下一次生成,逐步提升候选结构的准确率。
3. 技术挑战与应对
数据稀缺与合成数据 相比图像领域,材料科学的实验标注数据极少。应对策略是利用现有的无机晶体数据库(如ICSD、Materials Project)进行大规模预训练,并通过物理模拟生成合成数据来增强模型的泛化能力。
局部最优与幻觉控制 生成模型可能产生化学上不合理的结构(如原子重叠)。通过在损失函数中加入基于物理的能量惩罚项,以及在生成过程中强制执行几何约束,确保生成的结构处于能量极小值点,从而提高合成成功率。
最佳实践
最佳实践指南
实践 1:利用生成式 AI 拓展材料搜索空间
说明: 传统材料科学依赖于试错法或基于已知数据库的筛选,效率较低。借鉴 Max Welling 和 CuspAI 的观点,应利用生成式 AI 模型(如扩散模型)不仅仅是在现有数据中寻找材料,而是像“生成图像”一样“生成”全新的、具有特定性质的分子结构。这允许研究人员探索传统化学直觉未触及的广阔化学空间。
实施步骤:
- 定义目标属性(如吸附能力、稳定性、导电性)。
- 训练或微调生成模型,使其学习化学结构和性质之间的映射关系。
- 使用模型在潜在空间中进行采样,生成符合目标属性的候选分子结构。
- 对生成的结构进行初步的虚拟筛选,剔除不合理的化学结构。
注意事项: 确保生成的分子符合化学价态和几何约束规则(即化学有效性),避免生成物理上无法合成的结构。
实践 2:构建“实验室闭环”系统
说明: AI 模型的预测能力需要实验数据的验证和反馈。最佳实践是建立一个自动化或半自动化的闭环系统,将 AI 的“大脑”与实验室中的机器人“手”连接起来。AI 提出假设,机器人进行合成和测试,结果反馈给 AI 以更新模型,从而实现自我进化式的快速迭代。
实施步骤:
- 集成高通量计算筛选与自动化实验平台。
- 建立标准化的数据接口,确保实验数据能实时回流至 AI 训练管道。
- 设计贝叶斯优化或主动学习策略,让 AI 自主决定下一个最有价值的实验是什么,而不是随机测试。
- 不断迭代循环,利用新数据修正模型的预测偏差。
注意事项: 实验数据的标准化和质量控制至关重要,错误的反馈数据会误导模型优化方向。
实践 3:采用“几何深度学习”处理分子结构
说明: 材料的性质往往取决于其三维几何结构和对称性,而不仅仅是原子的连接方式。Max Welling 强调了等变性 的重要性。实施时应使用图神经网络或张量场网络,这些模型能自然地处理旋转、平移和置换对称性,从而更准确地预测材料性质。
实施步骤:
- 放弃传统的基于指纹的表征方法,转而使用基于图或点云的数据结构输入模型。
- 选择具有 SE(3) 或 E(3) 等变性的神经网络架构。
- 在训练数据中包含分子的三维坐标信息,确保模型理解空间几何关系。
- 针对特定任务(如势能面预测)微调模型参数。
注意事项: 几何深度学习模型通常计算量较大,需要合理规划算力资源,或使用高效的近似算法。
实践 4:利用小样本学习克服数据稀缺
说明: 与计算机视觉领域拥有海量数据不同,材料科学的高质量实验数据通常非常稀缺。最佳实践是采用迁移学习或小样本学习技术,利用在大规模通用数据集上预训练的模型,然后针对特定的材料任务进行微调,从而在数据量有限的情况下获得高性能。
实施步骤:
- 收集大规模的通用化学数据库(如剑桥结构数据库 CSD 或计算生成的数据库)进行预训练。
- 将预训练模型迁移到目标特定的材料任务上。
- 使用物理信息约束来辅助训练,即在损失函数中加入已知的物理定律,减少对数据量的依赖。
- 应用数据增强技术,对有限的实验数据进行旋转、扰动等操作以扩充训练集。
注意事项: 避免负迁移,确保预训练数据的分布与目标任务具有一定的相关性。
实践 5:关注可持续性与碳捕获应用
说明: CuspAI 的核心使命是利用 AI 寻找新材料以应对气候变化。在研发新材料时,应将“碳捕获与封存”(CCS)能力作为核心优化指标之一。这包括开发能够高效吸附二氧化碳、并在低压下易于再生的多孔材料(如金属有机框架 MOFs)。
实施步骤:
- 在 AI 优化目标中明确加入对 CO2 吸附选择性、吸附容量和再生能量的权重。
- 模拟材料在不同工况(如温度、压力、湿度)下的稳定性,确保工业应用可行性。
- 评估材料的全生命周期碳排放,确保合成过程本身是绿色低碳的。
- 针对直接空气捕获(DAC)或点源捕获等具体场景定制材料搜索算法。
注意事项: 平衡吸附性能与材料合成的成本及复杂性,确保最终方案具有工业化落地的经济可行性。
学习要点
- CuspAI 利用生成式 AI 将材料发现过程从传统的试错法转变为逆向设计,即根据期望属性直接生成所需结构。
- Max Welling 提出的“自然即计算机”概念,主张利用物理学定律作为归纳偏置来约束 AI 模型,从而在数据稀缺的情况下提高预测准确性。
- 该技术通过生成式模型在广阔的化学空间中进行高效搜索,能够快速筛选出针对碳捕获等特定需求的高性能候选材料。
- AI 与材料科学的结合旨在解决能源转型中的关键挑战,特别是开发用于碳捕获和储存的新型多孔材料。
- 这种方法有望大幅缩短新材料的研发周期并降低实验成本,加速可持续技术解决方案的商业化落地。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
- 分类: 大模型 / 产品与创业
- 标签: CuspAI / 材料科学 / Geoffrey Hinton / Yann LeCun / Max Welling / 融资 / Nature / AI for Science
- 场景: AI/ML项目