Moltis：具备记忆、工具与技能扩展能力的AI助手

基本信息

作者: fabienpenso
评分: 54
评论数: 19
链接: https://www.moltis.org
HN 讨论: https://news.ycombinator.com/item?id=46993587

导语

在 AI 助理日益普及的当下，如何突破单次对话的局限，实现具备记忆与工具调用能力的智能体，已成为开发者关注的焦点。本文介绍的 Moltis 正是这样一款项目，它不仅拥有持久化记忆，还支持工具集成与技能的自主扩展。通过阅读本文，你将了解 Moltis 的核心架构设计，并掌握如何利用它构建更具连续性与实用性的 AI 应用。

文章中心观点 Moltis 试图通过引入持久化记忆、外部工具调用和动态技能加载机制，来解决当前 LLM（大语言模型）应用中普遍存在的上下文遗忘、幻觉以及能力固化问题，旨在构建一个能够随用户交互而“进化”的 AI Agent。

深入评价

1. 内容深度与论证严谨性

事实陈述：文章提出了 AI 领域目前最热门的三个技术痛点：记忆、工具使用和技能扩展。
作者观点：作者认为通过 RAG（检索增强生成）和 Function Calling 的结合，可以赋予 AI “自我扩展”的能力。
深度评价：从技术架构上看，Moltis 的方案触及了 Agent 设计的核心，即“状态”与“行动”的分离。然而，文章在论证严谨性上略显不足。它更多展示了“能做什么”，而较少探讨“代价是什么”。例如，无限增加的记忆和技能会导致检索精度的下降和决策延迟，这在工程上是一个巨大的挑战（即“知识库污染”问题）。文章未能深入讨论如何解决“遗忘旧知识”或“技能冲突”的问题。

2. 实用价值与创新性

支撑理由：
1. 持久化记忆：打破了 ChatGPT 等“无状态”应用的局限，使 AI 能成为真正的“助手”而非“问答机”，对需要长期跟踪的咨询、编程辅助场景具有极高的实用价值。
2. 工具集成：允许 AI 调用外部 API，这标志着 AI 从“内容生成器”向“任务执行器”的转变，直接提升了生产力。
3. 动态技能系统：提出“技能”可热插拔，类似于操作系统的驱动程序，这是一种极具潜力的软件工程范式，降低了 AI 功能的迭代成本。
创新性：Moltis 的创新不在于单一技术（RAG 或 Function Call 都是现成的），而在于系统编排。它将 AI 视为一个操作系统，而非单纯的应用程序。这种“以 AI 为内核的技能生态”是目前行业探索的前沿方向。

3. 反例与边界条件

反例 1（隐私边界）：在医疗或金融领域，持久化记忆可能成为数据合规的噩梦。如果 AI 记住了用户的敏感隐私数据且无法彻底“遗忘”，将导致严重的合规风险。
反例 2（复杂度陷阱）：对于简单任务（如快速翻译），Moltis 的架构可能过于笨重。如果每次交互都要检索记忆库和加载技能，响应延迟会破坏用户体验。
边界条件：该系统在“高频、低语境”的任务中优势不明显，而在“长周期、高复杂度”的任务中价值最大。

4. 行业影响与争议点

行业影响：Moltis 的模式如果成熟，将直接冲击现有的 SaaS 软件架构。未来的软件可能不再是“人操作软件”，而是“人告诉 AI，AI 操作软件”。这推动了从 GUI（图形用户界面）向 LUI（自然语言界面）的加速转型。
争议点：最大的争议在于**“自我扩展”的定义**。目前的 AI 本质上是基于概率预测下一个 token，所谓的“学习新技能”通常只是注入了新的 Prompt 或代码片段，而非真正的神经网络层面的权重更新。这种“伪学习”在遇到逻辑冲突极强的技能时，可能会导致系统崩溃或逻辑崩塌。

实际应用建议

冷启动优化：建议为 Moltis 设置“技能沙箱”。新加载的技能应先在隔离环境中测试，避免直接污染主记忆库。
分级记忆机制：不要对所有交互进行全量记忆。应设计“短期记忆”（当前会话）和“长期记忆”（用户偏好）的分层架构，并引入“遗忘机制”以降低检索噪音。
人机协同：在涉及高风险操作（如修改数据库、发送邮件）时，必须引入“确认环节”，不能完全依赖 AI 的自主判断。

可验证的检查方式

长上下文一致性测试：
- 指标：在跨越 10 轮以上的对话中，AI 仍能准确引用第 1 轮设定的特定参数（如“只使用 Python 3.8 语法”）。
技能加载成功率与冲突率：
- 指标：在同时加载 5 个以上自定义技能插件时，观察 AI 的响应延迟增加幅度及指令遵循率（Instruction Following Rate）。
幻觉率对比：
- 实验：对比开启“工具调用”与关闭“工具调用”时，AI 回复事实性错误（如“今天天气”）的频率。开启工具后，幻觉率应趋近于 0。

总结 Moltis 代表了 AI Agent 发展的正确方向，即从“模型”走向“系统”。虽然其在“自我进化”的表述上可能存在营销夸大（目前多为工程层面的扩展而非智能本质的进化），但其架构设计对于解决 AI 落地中的“最后一公里”问题具有重要的参考价值。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 示例1：基于内存的对话历史管理
from typing import List, Dict
import json

class ConversationMemory:
    def __init__(self):
        self.history: List[Dict] = []
    
    def add_message(self, role: str, content: str):
        """添加对话记录到内存"""
        self.history.append({
            "role": role,
            "content": content,
            "timestamp": len(self.history)
        })
    
    def get_context(self, last_n: int = 5) -> str:
        """获取最近N条对话上下文"""
        recent = self.history[-last_n:]
        return "\n".join([f"{msg['role']}: {msg['content']}" for msg in recent])

# 使用示例
memory = ConversationMemory()
memory.add_message("user", "帮我查一下明天的天气")
memory.add_message("assistant", "已为您查询到明天晴转多云，气温15-25℃")
print(memory.get_context())

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# 示例2：可扩展的工具调用系统
class ToolRegistry:
    def __init__(self):
        self.tools = {}
    
    def register(self, name: str):
        """装饰器：注册新工具"""
        def decorator(func):
            self.tools[name] = func
            return func
        return decorator
    
    def call_tool(self, name: str, *args, **kwargs):
        """动态调用已注册的工具"""
        if name in self.tools:
            return self.tools[name](*args, **kwargs)
        raise ValueError(f"工具 {name} 未注册")

# 使用示例
registry = ToolRegistry()

@registry.register("calculator")
def calculator(a: float, b: float, op: str):
    """基础计算器工具"""
    ops = {
        "+": lambda x, y: x + y,
        "-": lambda x, y: x - y,
        "*": lambda x, y: x * y,
        "/": lambda x, y: x / y
    }
    return ops[op](a, b)

print(registry.call_tool("calculator", 10, 5, "*"))  # 输出: 50.0

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# 示例3：自动技能学习系统
class SkillLearner:
    def __init__(self):
        self.knowledge_base = {}
    
    def learn(self, skill_name: str, examples: List[tuple]):
        """从示例中学习新技能"""
        def skill(*args):
            for example in examples:
                if args == example[0]:
                    return example[1]
            return "未知情况"
        
        self.knowledge_base[skill_name] = skill
    
    def use_skill(self, skill_name: str, *args):
        """使用已学习的技能"""
        if skill_name in self.knowledge_base:
            return self.knowledge_base[skill_name](*args)
        return "技能未学习"

# 使用示例
learner = SkillLearner()
learner.learn("greeting", 
             [("你好", "你好！有什么我可以帮你的？"),
              ("早上好", "早上好！祝你今天愉快！")])

print(learner.use_skill("greeting", "你好"))  # 输出: 你好！有什么我可以帮你的？

案例研究

1：中型跨境电商团队的市场运营

背景: 一家专注于欧美市场的跨境电商公司，运营团队由 5 人组成，每天需要处理大量的客户咨询邮件、分析竞品动态以及在社交媒体上发布营销内容。

问题: 团队成员每天花费大量时间在重复性的文案撰写和基础数据整理上。由于缺乏统一的记忆库，新的客服人员无法快速掌握历史订单的特殊处理情况，且针对不同节日（如黑五、圣诞节）的营销风格难以保持一致，导致效率低下且客户体验参差不齐。

解决方案: 引入 Moltis 作为团队的虚拟运营助理。利用其“记忆”功能，Moltis 记录了所有过往的高转化率邮件话术和品牌调性规范。通过“工具”调用能力，Moltis 自动抓取竞品网站的 price 变动并生成报表。同时，利用其“自我扩展技能”特性，Moltis 根据最新的 Instagram 热门标签，自动学习并生成了符合当地文化的营销文案。

效果: 团队处理客户邮件的平均回复时间缩短了 40%，且新员工通过查询 Moltis 的记忆库，上手时间从 2 周减少至 3 天。营销文案的产出量提升了 3 倍，且风格统一，品牌专业度显著提高。

2：独立开发者的全栈开发辅助

背景: 一名专注于开发 SaaS 小工具的全栈独立开发者，习惯使用 Python 和 Tailwind CSS 进行开发，但经常在处理前端 UI 细节和编写单元测试时卡顿，导致开发节奏被打断。

问题: 开发者在编写复杂的后端逻辑时思维连贯，但切换到前端 CSS 样式调整或编写繁琐的测试用例时，需要频繁查阅文档或搜索 Stack Overflow，极大地消耗了认知资源和开发时间。此外，现有的代码片段散落在不同的项目中，难以复用。

解决方案: 将 Moltis 集成到开发工作流中。Moltis 通过“记忆”功能存储了开发者过往的代码偏好（如特定的代码结构、命名习惯）。当开发者完成核心逻辑后，Moltis 自动识别代码意图，利用其“工具”能力调用本地的测试框架生成对应的单元测试，并根据项目历史自动补全 Tailwind 样式类。Moltis 甚至通过自我扩展学会了开发者私有的 API 调用封装方式。

效果: 开发者的编码效率提升了约 30%，特别是在处理 UI 调整和测试覆盖率方面，节省了每天约 2 小时的查阅时间。代码复用率大幅提高，项目的维护成本降低了 20%。

3：个人知识管理者的深度研究助理

背景: 一名专注于科技趋势分析的自由撰稿人，长期依赖 Notion 和 Obsidian 收集资料，但随着信息量的爆发式增长，检索和整合碎片化信息变得越来越困难。

问题: 撰写深度文章时，需要从数千个笔记中提取关联信息，传统的关键词搜索往往无法覆盖隐含的逻辑联系。此外，手动整理不同来源（如 PDF 论文、网页文章）的数据并生成对比图表非常耗时。

解决方案: 部署 Moltis 作为个人研究助理。Moltis 利用其持久化“记忆”能力，索引了用户过往 3 年的所有笔记内容，并建立了语义关联。在准备写作时，Moltis 能根据大纲主动调取相关的历史论据，并使用“工具”联网搜索最新的行业数据，自动生成对比表格。

效果: 撰写一篇深度调研文章的资料准备时间从 3 天缩短至 0.5 天。Moltis 经常能指出用户忽略的旧笔记中的关联观点，提升了文章的深度和逻辑严密性，知识库的利用率提高了 5 倍以上。

最佳实践

最佳实践指南

实践 1：构建长期记忆架构

说明: AI助手的核心竞争力在于能够跨会话记住用户偏好和上下文。通过实现持久化记忆层，AI可以回忆起过去的对话、用户习惯和关键信息，从而提供高度个性化的体验。

实施步骤:

设计向量数据库或图数据库结构来存储用户交互历史
实现上下文检索机制，在生成回复前提取相关记忆
建立记忆重要性评分系统，优先保留高价值信息

注意事项: 确保用户数据加密存储，提供清晰的记忆管理界面让用户可以查看或删除记忆。

实践 2：模块化工具集成

说明: 通过API连接外部工具和服务，使AI能够执行实际操作而非仅生成文本。这包括网络搜索、日程管理、文件操作等实用功能。

实施步骤:

定义标准化的工具接口规范
实现工具调用决策逻辑，判断何时需要使用工具
建立工具执行结果解析和错误处理机制

注意事项: 实现严格的权限控制和沙箱环境，防止AI执行危险操作。

实践 3：动态技能扩展机制

说明: 允许AI系统通过自然语言描述或代码片段动态学习新技能，而无需重新部署整个系统。这使AI能够适应不断变化的需求。

实施步骤:

设计可插拔的技能加载系统
实现技能验证和安全检查流程
建立技能市场或共享机制供用户贡献

注意事项: 对动态加载的代码进行严格审查，限制技能的权限范围。

实践 4：上下文感知交互

说明: AI应能理解对话的深层上下文，包括隐含意图、情感状态和未明确表达的需求，而不仅仅是字面理解。

实施步骤:

实现多轮对话状态跟踪
集成情感分析和意图识别模块
设计上下文压缩算法保留关键信息

注意事项: 平衡上下文长度与响应速度，避免信息过载影响决策质量。

实践 5：渐进式能力披露

说明: 根据用户熟练度和交互历史，逐步展示AI的高级功能。避免一次性展示所有功能造成用户困惑。

实施步骤:

建立用户熟练度评估模型
设计分层的功能展示界面
实现智能提示系统在适当时机介绍新功能

注意事项: 始终允许高级用户直接访问所有功能，不要过度限制。

实践 6：可解释的决策过程

说明: 当AI执行复杂操作或调用工具时，向用户清晰解释其决策依据和执行步骤，增强信任度和可调试性。

实施步骤:

记录关键决策点的推理链
设计直观的决策可视化界面
提供"为什么"按钮让用户查询AI行为原因

注意事项: 避免过度解释导致信息冗余，平衡透明度与简洁性。

实践 7：持续学习与反馈循环

说明: 建立系统化的用户反馈收集机制，将交互数据用于持续改进模型表现和工具选择策略。

实施步骤:

设计多维度反馈收集界面(评分、文本纠正等)
实现反馈数据的自动标注和分类
建立定期模型微调和工具优化流程

注意事项: 严格匿名化处理反馈数据，明确告知用户数据使用方式。

学习要点

Moltis 具备持久化记忆能力，能够跨对话记住用户信息并提供连贯的个性化服务。
内置集成工具链，使其不仅能对话，还能直接执行任务或操作外部应用。
支持技能的自我扩展，能够根据需求动态学习或安装新的功能模块。
强调了 AI 助手从单纯的“对话机器人”向具备记忆和执行能力的“智能体”演进的趋势。
展示了通过增强记忆和工具使用来提升 AI 实用性的技术实现路径。

常见问题

1: Moltis 与 ChatGPT 或 Claude 等主流 AI 助手的核心区别是什么？

A: Moltis 的主要差异化优势在于其持久化记忆和自我扩展能力。虽然 ChatGPT 和 Claude 拥有强大的对话能力，但它们通常受限于上下文窗口，一旦对话关闭或时间推移，之前的细节容易被遗忘。Moltis 专为长期交互设计，能够跨会话记住用户偏好和过往信息。此外，Moltis 具备“自我扩展技能”的特性，意味着它可以根据使用情况动态调整或学习使用新工具，而不仅仅是依赖预设的插件或 API 调用。

2: Moltis 是如何实现“记忆”功能的？数据隐私如何保障？

A: Moltis 通过向量数据库和本地存储技术来实现长期记忆。它会提取对话中的关键实体、用户偏好和重要事件，将其存储在用户专属的知识库中，以便在未来的对话中快速检索和调用。

关于数据隐私，Moltis 强调数据的所有权属于用户。根据其设计理念，记忆数据通常存储在本地或用户控制的端点，而不是仅保留在中心化的服务器日志中。这使得用户可以随时清除记忆，或者选择让模型“遗忘”特定片段，从而提供比传统云端聊天机器人更高的隐私控制级别。

3: 所谓的“自我扩展技能”具体是指什么？它是如何工作的？

A: “自我扩展技能”指的是 Moltis 不仅仅是被动地回答问题，而是能够主动地组合或调用外部工具来完成任务。这通常通过函数调用或智能体架构实现。

具体工作流程是：当用户提出一个复杂需求（例如“帮我分析这周的交易记录并生成图表”）时，Moltis 会判断自身现有能力是否足够。如果不足，它会尝试寻找或加载相应的工具（如 Python 解释器、网络搜索或特定的 API 插件），将大任务拆解为步骤，自动执行这些工具，并将结果整合后反馈给用户。随着交互增多，它能更熟练地掌握这些工具的使用模式，表现为“技能的扩展”。

4: Moltis 目前支持哪些模型？它是完全独立的模型还是套壳应用？

A: Moltis 目前主要作为一个智能体框架或中间层存在，它通常需要接入大语言模型（LLM）才能运行。它支持多种主流的底层模型，包括 OpenAI 的 GPT 系列（如 GPT-4o）、Anthropic 的 Claude 系列，以及部分开源模型（如 Llama 3）。

它不是一个完全独立的“新模型”，而是一个增强型的 AI 操作系统。你可以把它理解为一个“大脑”的执行层，负责管理记忆、调度工具和处理逻辑，而底层的推理能力则依赖于接入的 LLM。这种设计允许用户根据隐私和成本需求，灵活切换不同的底层模型。

5: 对于开发者来说，Moltis 的可扩展性如何？我可以自定义工具吗？

A: Moltis 对开发者非常友好，具有高度的可扩展性。它的架构允许开发者通过定义简单的函数或 API 接口来添加自定义工具。

开发者可以使用标准的 JSON Schema 或 Python 装饰器来定义新功能，Moltis 会自动将这些功能注册到其技能库中。当对话场景需要使用这些功能时，Moltis 会自动识别参数并进行调用。这意味着你可以轻松地让 Moltis 接入公司内部的数据库、CRM 系统或任何特定的业务逻辑，使其成为一个定制化的企业助手。

6: Moltis 目前是开源的吗？未来有什么计划？

A: Moltis 目前已在 GitHub 上开源（根据 Show HN 的惯例）。作者发布它的初衷是为了展示 AI 在记忆和工具使用方面的潜力，并希望获得社区的反馈。

未来的计划通常包括：增强长时记忆的检索精度、支持更多的本地模型运行（以降低成本和隐私风险）、以及简化自定义工具的安装流程。社区开发者非常关注其多模态能力（如记忆图片或文件）的更新，这很可能是后续迭代的重点方向。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

在构建具有记忆功能的 AI 助手时，最基础的数据结构是键值对存储。请设计一个简单的 JSON 结构，用于存储用户的短期上下文记忆（例如：用户偏好、当前话题）。该结构需要支持根据时间戳自动清理过期的对话条目。

提示**:

引用

原文链接: https://www.moltis.org
HN 讨论: https://news.ycombinator.com/item?id=46993587

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：产品与创业 / AI 工程
标签： AI助手 / Agent / LLM / 记忆机制 / 工具调用 / 技能扩展 / Show HN / 智能体
场景： AI/ML项目 / 大语言模型

Moltis：具备记忆与工具调用能力的自扩展AI助手
Agent Skills：AI 智能体技能框架
Agent Skills：智能体技能框架
OpenEnv实践：评估真实环境中的工具调用智能体
OpenEnv实践：评估真实环境中的工具调用智能体 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

AI Stack

Moltis：具备记忆、工具与技能扩展能力的AI助手