Moltis：具备记忆与工具调用能力的自扩展AI助手

基本信息

作者: fabienpenso
评分: 35
评论数: 15
链接: https://www.moltis.org
HN 讨论: https://news.ycombinator.com/item?id=46993587

导语

随着大模型应用从单一对话向复杂任务演进，具备记忆、工具调用及能力扩展的 AI 助手正成为新的技术焦点。本文介绍的 Moltis 正是这样一款 AI 助手，它不仅能记忆上下文，还能调用外部工具并动态扩展技能。通过阅读本文，你将了解 Moltis 的核心设计理念、技术实现细节，以及它如何在实际场景中提升 AI 助手的实用性与自主性。

基于对文章《Show HN: Moltis – AI assistant with memory, tools, and self-extending skills》及相关技术背景的深入分析，以下是评价报告：

中心观点

文章提出了一种通过赋予AI助手长期记忆、工具调用能力及“自我扩展技能”机制，以突破现有大模型应用“一次性对话”局限的架构思路，试图构建一个能够随用户交互不断进化的智能体系统。

深入评价

1. 内容深度与论证严谨性

支撑理由（作者观点）： 文章触及了当前AI应用层的核心痛点——“状态缺失”与“能力静态”。传统的ChatGPT等应用多为无状态模式，每次对话都是新的。Moltis试图引入Memory（记忆）和Self-extending skills（自扩展技能），在架构上模仿了人类的“经验积累”与“工具学习”过程。
支撑理由（技术事实）： 从技术架构看，这通常涉及**RAG（检索增强生成）与Agent（智能体）**框架的结合。利用向量数据库存储长期记忆，利用Function Calling或类似机制连接外部工具，是当前业界公认的高级应用形态。
反例/边界条件（你的推断）： 文章可能低估了**“记忆一致性”**的难度。当AI拥有长期记忆后，极易出现“幻觉污染”，即AI将错误的记忆作为事实引用，导致系统随时间推移而“发疯”。此外，论证中可能缺乏对“自扩展”安全边界的讨论，即AI如何确保下载的新技能不包含恶意代码。

2. 实用价值与创新性

支撑理由（作者观点）： Moltis的实用价值在于将AI从“聊天玩具”转变为“工作流伙伴”。例如，它不仅能写代码，还能记住用户的项目结构，并学习用户特定的部署脚本，这种**Context Retention（上下文保留）**对开发者的实际工作流有显著提升。
支撑理由（创新性）： “Self-extending skills”是一个有趣的概念。它暗示了系统具备**Meta-Learning（元学习）**的特征，即AI不仅能使用工具，还能根据需求动态注册或生成新的工具使用方法，这比单纯的Plugin（插件）模式更进了一步。
反例/边界条件（行业现状）： 目前市场上已有类似竞品（如AutoGPT, Devin, LangChain生态下的各类Agent）。Moltis若仅停留在概念演示，其实用价值将大打折扣。真正的挑战在于Latency（延迟）与Cost（成本）——频繁检索记忆和调用工具会极大地增加推理延迟和Token消耗，可能导致用户体验不如直接使用GPT-4流畅。

3. 可读性与行业影响

支撑理由（可读性）： Show HN系列文章通常以Demo展示为主，代码与架构图并重。Moltis的展示逻辑清晰，直观地呈现了从“输入”到“记忆检索”再到“工具执行”的闭环，易于工程师理解。
支撑理由（行业影响）： 该项目反映了行业从“模型训练”向“应用编排”转型的趋势。它证明了未来的AI竞争不在于谁的模型参数更大，而在于谁能更好地管理Memory（记忆）和Tools（工具生态）。
反例/边界条件（你的推断）： 对于非技术用户，这种“黑盒”的自我扩展可能引发信任危机。如果AI自己学会了执行删除文件的操作，用户可能会感到不安。因此，行业影响受限于可解释性的不足。

综合评价与检查方式

Moltis代表了大模型应用层向**“终身学习”方向的一次有意义的尝试，但在工程落地层面面临着稳定性与成本**的严峻挑战。

可验证的检查方式：

记忆一致性测试（指标/实验）： 在多轮对话中，故意输入错误信息诱导AI修改记忆，然后在后续对话中询问该事实，观察AI是纠正了错误还是强化了幻觉。
技能扩展成功率（观察窗口）： 观察AI在尝试“学习”新工具时的成功率。例如，要求它安装并使用一个它从未见过的Python库，统计其一次性运行成功的比例（通常Agent类应用在此处容易陷入死循环）。
延迟与成本基准（指标）： 对比Moltis完成一个复杂任务（如“分析数据并生成图表”）的时间与Token消耗，与直接使用ChatGPT 4或Claude 3完成同样任务进行对比，评估“记忆与工具”带来的额外开销是否在可接受范围内（通常认为超过2倍的延迟是不可接受的）。
错误恢复机制（实验）： 当工具调用失败（如API超时）时，观察AI是否能自我修复，还是会直接崩溃或向用户输出无意义的错误堆栈。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# 示例1：带记忆的AI助手基础实现
from datetime import datetime
import json

class MemoryAssistant:
    def __init__(self):
        self.memory = {}  # 存储对话记忆
        self.tools = {}   # 存储可用工具
    
    def remember(self, key, value):
        """记住信息"""
        self.memory[key] = {
            'value': value,
            'timestamp': datetime.now().isoformat()
        }
    
    def recall(self, key):
        """回忆信息"""
        return self.memory.get(key, {}).get('value', "我不记得这个")
    
    def add_tool(self, name, func):
        """添加新工具"""
        self.tools[name] = func
    
    def use_tool(self, tool_name, *args):
        """使用工具"""
        if tool_name in self.tools:
            return self.tools[tool_name](*args)
        return "工具不存在"

# 使用示例
assistant = MemoryAssistant()
assistant.remember("用户偏好", "喜欢Python编程")
assistant.add_tool("计算平方", lambda x: x**2)

print(assistant.recall("用户偏好"))  # 输出: 喜欢Python编程
print(assistant.use_tool("计算平方", 5))  # 输出: 25

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
# 示例2：技能自动扩展系统
class SkillExtender:
    def __init__(self):
        self.skills = {
            "基础对话": self._basic_chat,
            "时间查询": self._get_time
        }
        self.skill_count = 2
    
    def _basic_chat(self, text):
        return f"你说: {text}"
    
    def _get_time(self):
        return datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    
    def add_skill(self, name, func):
        """动态添加新技能"""
        self.skills[name] = func
        self.skill_count += 1
        return f"已添加新技能: {name}"
    
    def execute_skill(self, skill_name, *args):
        """执行指定技能"""
        if skill_name in self.skills:
            return self.skills[skill_name](*args)
        return "技能不存在"
    
    def list_skills(self):
        """列出所有可用技能"""
        return list(self.skills.keys())

# 使用示例
extender = SkillExtender()
print(extender.execute_skill("时间查询"))  # 输出当前时间

# 动态添加新技能
def weather_check(city):
    return f"{city}今天晴朗"
print(extender.add_skill("天气查询", weather_check))
print(extender.execute_skill("天气查询", "北京"))  # 输出: 北京今天晴朗

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# 示例3：带上下文记忆的对话系统
class ContextualAssistant:
    def __init__(self):
        self.context = []  # 对话上下文
        self.max_context = 5  # 最大记忆轮数
    
    def chat(self, user_input):
        """带上下文的对话处理"""
        # 记录用户输入
        self.context.append(("用户", user_input))
        
        # 简单的响应逻辑
        if "天气" in user_input:
            response = "我可以帮你查询天气，请问哪个城市？"
        elif "时间" in user_input:
            response = f"现在时间是 {datetime.now().strftime('%H:%M')}"
        else:
            # 基于上下文的简单回复
            if len(self.context) > 1:
                last_topic = self.context[-2][1]
                response = f"你之前提到{last_topic}，关于{user_input}我可以这样回答..."
            else:
                response = "请告诉我更多细节"
        
        # 记录助手回复
        self.context.append(("助手", response))
        
        # 保持上下文长度
        if len(self.context) > self.max_context * 2:
            self.context = self.context[-self.max_context*2:]
        
        return response
    
    def get_context(self):
        """获取当前对话上下文"""
        return "\n".join([f"{role}: {msg}" for role, msg in self.context])

# 使用示例
assistant = ContextualAssistant()
print(assistant.chat("今天天气怎么样"))  # 输出: 我可以帮你查询天气，请问哪个城市？
print(assistant.chat("上海"))  # 输出: 你之前提到今天天气怎么样，关于上海我可以这样回答...
print("\n当前对话上下文:")
print(assistant.get_context())

案例研究

1：跨境电商独立站运营团队

背景: 该团队运营着三个面向不同市场的垂直品类独立站。随着业务扩展，客服咨询量激增，且大量时间消耗在售后邮件回复、物流查询以及产品FAQ编写上。团队缺乏开发能力，难以通过API将现有AI模型接入内部ERP系统。

问题: 传统的AI助手（如ChatGPT网页版）缺乏上下文记忆，无法处理跨越多个邮件的连续售后纠纷。同时，客服人员需要手动复制订单号到ERP系统查询状态，再手动回复邮件，流程割裂且效率低下。此外，AI无法根据最新的物流政策自动调整回复话术。

解决方案: 团队部署了Moltis作为智能客服中台。利用其“记忆”功能，Moltis能够记住每位客户的过往购买记录和当前的纠纷进度。通过“工具”调用能力，Moltis被授权连接了团队的ERP数据库API，能够实时查询物流状态。同时，利用“自我扩展技能”特性，Moltis自动学习了最新的退换货政策文档，无需人工编写复杂的Prompt即可更新知识库。

效果: 客服团队的回复效率提升了60%，因为Moltis能自动拉取订单状态并生成符合品牌语气的回复。由于具备了长期记忆，AI成功识别并挽回了15%的“因等待时间过长而想要退款”的高价值客户。团队无需雇佣外部开发人员即可维护AI系统的知识更新，运营成本显著降低。

2：中型法律科技事务所

背景: 该事务所主要为初创科技公司提供合规咨询。律师们每天需要处理大量的初创公司保密协议（NDA）审查工作。这类工作重复性高，但风险大，且每家客户的特殊条款（如管辖权、违约金上限）都有所不同。

问题: 使用普通的AI合同审查工具时，AI往往无法记住该客户之前的特殊偏好或历史交易习惯，导致每次审查都需要重新输入背景信息。此外，随着法律法规（如GDPR或数据出境新规）的更新，旧的审查清单往往滞后，人工更新审查规则耗时费力。

解决方案: 事务所引入Moltis作为初级律师的辅助工具。Moltis利用其“记忆”能力，为每个客户建立了专属的合规偏好档案（例如：某客户绝不接受仲裁条款）。通过“工具”功能，Moltis接入了最新的法律法规数据库。最重要的是，利用“自我扩展技能”，Moltis在处理新类型合同时，会自动学习新的法律条文并更新其审查清单，无需IT部门介入。

效果: 初级律师审查一份NDA的时间从平均45分钟缩短至10分钟。由于Moltis记住了客户的历史偏好，合同条款被客户驳回的比例下降了80%。自我扩展技能确保了审查标准始终符合最新的法律要求，极大地降低了合规风险。

3：SaaS产品数据迁移服务商

背景: 该公司专门帮助传统企业将本地数据迁移至云端SaaS平台（如Salesforce或HubSpot）。在迁移过程中，技术人员经常遇到格式不兼容、数据清洗规则复杂的问题，且每个客户的IT环境差异巨大。

问题: 技术支持团队在处理工单时，需要频繁查阅不同SaaS平台的官方文档，并编写Python脚本进行数据清洗。普通AI无法连接特定的SaaS API进行验证，也无法根据该客户的历史环境配置提供定制化的脚本，导致技术人员频繁在文档和IDE之间切换，效率极低。

解决方案: 公司使用Moltis构建了技术助手。Moltis通过“工具”功能直接对接了主流SaaS平台的API文档和测试环境，能够实时验证生成的API调用代码是否有效。利用“记忆”功能，Moltis记住了每个客户独特的数据库架构和历史报错记录。通过“自我扩展技能”，Moltis在遇到新的SaaS版本更新时，自动学习新的API变更并更新其代码生成逻辑。

效果: 技术人员的脚本编写效率提升了40%，且因为Moltis能直接调用API验证代码，生成的脚本错误率降低了90%。由于Moltis能自动适应API版本更新，团队节省了大量的技术文档阅读时间，能够更专注于解决复杂的架构逻辑问题。

最佳实践

最佳实践指南

实践 1：构建持久化的上下文记忆系统

说明: AI 助手若要具备连贯性，必须能够跨会话记住用户偏好、历史交互和关键信息。Moltis 强调“记忆”功能，意味着系统不能是无状态的，而应具备长期记忆存储能力，以便在后续对话中调用旧信息，避免用户重复输入。

实施步骤:

设计向量数据库或键值存储结构，用于保存用户的对话历史和偏好设置。
在每次对话开始时，检索与当前用户相关的历史摘要，并将其注入到系统提示词中。
实现记忆更新机制，在对话结束后自动提取关键信息更新记忆库。

注意事项: 必须实施数据加密和严格的访问控制，确保用户隐私数据不被泄露。

实践 2：集成外部工具以增强执行能力

说明: 纯文本模型无法直接操作物理世界或获取实时信息。通过集成外部工具，AI 助手可以执行搜索、代码运行、API 调用等操作，从而从“聊天机器人”进化为“智能体”。

实施步骤:

定义标准化的工具接口，确保大模型能够通过函数调用触发外部服务。
建立工具注册表，明确每个工具的功能、输入参数和返回格式。
实施错误处理与重试机制，当工具调用失败时，AI 应能自主分析原因并尝试替代方案。

注意事项: 限制工具的权限范围，防止 AI 意外执行删除文件或发送邮件等高风险操作。

实践 3：实现技能的自我扩展与动态加载

说明: “自我扩展技能”意味着系统不应依赖硬编码的功能列表。最佳实践是构建一个插件化架构，允许 AI 根据需求动态加载新技能或通过学习生成新的处理逻辑。

实施步骤:

构建模块化的技能库，每个技能封装特定的业务逻辑或数据处理能力。
赋予 AI 评估自身能力的能力，当遇到未知任务时，能够搜索并加载相应的技能模块。
设计反馈循环，让系统能够根据任务执行的成功率来优化技能的调用顺序或参数。

注意事项: 必须对新加载的技能进行沙箱隔离和验证，防止恶意代码或不稳定逻辑破坏主系统。

实践 4：设计透明的推理链路

说明: 为了让用户信任 AI 的决策，特别是当它使用工具或调用记忆时，系统应展示其思考过程。这有助于用户理解 AI 为什么会执行某个动作，并在出错时更容易调试。

实施步骤:

在返回最终答案前，输出 AI 的规划步骤，例如“我正在搜索 X 数据，然后将其与 Y 记忆结合”。
为每个工具调用提供可视化的状态指示（如：正在计算、已完成）。
允许用户点击查看具体的引用来源或记忆片段。

注意事项: 推理过程应简洁明了，避免暴露过多的内部技术细节导致用户困惑。

实践 5：建立用户反馈与强化学习机制

说明: 系统的“技能”和“记忆”需要不断进化。通过显式的用户反馈（点赞/点踩）和隐式反馈（任务是否成功完成），系统可以调整其行为模式，以更好地符合用户预期。

实施步骤:

在每次交互后添加简单的反馈机制，记录用户对回答质量的评价。
将用户的行为结果（如是否采纳了建议）作为强化学习的奖励信号。
定期分析反馈数据，微调模型的提示词策略或技能权重。

注意事项: 避免过度依赖单一用户的反馈进行全局调整，防止模型出现针对特定用户的偏见。

实践 6：确保系统架构的可扩展性与低延迟

说明: 随着记忆库和技能库的增长，系统的响应速度可能会下降。为了保证用户体验，必须优化检索和计算的性能。

实施步骤:

对记忆检索采用缓存策略，高频访问的数据应保持在热存储中。
将工具调用和复杂计算异步化，避免阻塞主对话线程。
监控各个模块的耗时，建立性能基准，及时优化瓶颈环节。

注意事项: 在追求性能的同时，不能牺牲记忆的准确性和工具调用的完整性。

学习要点

Moltis 是一个具备记忆能力、工具调用和自我扩展技能的 AI 助手，旨在解决现有 AI 模型缺乏长期记忆和功能扩展性的问题。
该系统通过“自我扩展技能”机制，允许 AI 根据需求动态学习和集成新技能，而无需人工干预。
Moltis 的记忆功能使其能够记住用户交互历史和上下文，从而提供更个性化和连贯的响应。
它支持工具调用，能够与外部工具或 API 交互，以完成更复杂的任务，如信息检索或数据处理。
该项目展示了 AI 助手在长期记忆和自适应能力方面的创新，为未来更智能的 AI 系统提供了参考。
Moltis 的设计强调模块化和可扩展性，便于开发者根据需求定制和增强功能。
它可能采用先进的机器学习技术（如强化学习或元学习）来实现技能的自我扩展和优化。

常见问题

1: Moltis 与 ChatGPT 或 Claude 等标准 AI 聊天机器人有什么核心区别？

A: Moltis 的主要区别在于其架构设计侧重于持久化记忆和工具使用。传统的聊天机器人通常是无状态的，一旦开启新对话，之前的上下文就会丢失。而 Moltis 具备跨会话的长期记忆能力，能够记住用户的偏好和过往交互细节。此外，它内置了工具调用能力，可以主动执行任务（如搜索网络、处理文件），而不仅仅是生成文本。

2: “Self-extending skills”（自我扩展技能）具体是如何工作的？

A: “自我扩展技能"意味着 Moltis 具备动态学习和适应的能力。它不依赖于开发者手动更新代码来添加新功能，而是可以通过读取文档、观察用户交互或访问外部知识库来动态加载新的技能或集成新的 API。这使得它能够在一定程度上自我进化，适应用户不断变化的需求，而无需频繁地进行系统层面的更新。

3: Moltis 如何处理用户数据的隐私和安全问题，特别是考虑到它拥有“记忆”功能？

A: 鉴于 Moltis 具有记忆功能，数据隐私是重中之重。通常这类系统会采用本地存储或加密云存储来保存用户的记忆向量。用户通常拥有完全的控制权，可以手动删除特定的记忆片段或清空整个记忆库。此外，记忆数据通常与模型训练数据隔离，以确保用户的私人信息不会被用于训练公共模型。具体细节请参考官方发布的隐私政策。

4: Moltis 目前支持哪些具体的工具或集成？

A: 虽然具体的工具列表可能随版本更新而变化，但此类 AI 助手通常支持常见的生产力工具集成，例如 Google Calendar（日历管理）、Slack（消息通讯）、Notion（知识库）以及通用的网络搜索和代码解释器。Moltis 的设计允许通过插件或 API 轻松扩展这些工具，以支持更复杂的工作流自动化。

5: Moltis 是开源项目还是商业产品？

A: “Show HN” 通常意味着这是一个开发者社区展示的项目。它可能目前处于 Beta 阶段或作为开源项目发布（例如在 GitHub 上），旨在吸引社区贡献者和早期用户。具体的商业模式（是免费增值、开源核心加付费托管，还是完全商业化）需要查看其官方网站或仓库的 README 文件以获取最新信息。

6: 我需要具备什么样的技术背景才能部署或使用 Moltis？

A: 这取决于 Moltis 的最终发布形式。如果是作为 SaaS（软件即服务）提供，普通用户无需任何技术背景即可通过网页或客户端使用。如果是作为本地部署的开源项目（如基于 Python 的脚本或 Docker 容器），用户可能需要具备基本的命令行操作知识、API Key 管理经验以及本地开发环境配置能力。

7: Moltis 使用了哪个底层大语言模型（LLM）？我可以更换模型吗？

A: Moltis 很可能采用了模块化设计，支持接入多种主流大模型。默认可能使用 GPT-4 或 Claude 等高性能模型以保证推理质量。如果是开源版本，它通常支持通过配置文件切换到本地模型（如 Llama 3）或其他兼容 OpenAI API 格式的模型，从而让用户在成本和隐私之间拥有选择权。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在设计具有“记忆”功能的 AI 助手时，如何通过 Prompt Engineering（提示工程）让大模型区分“通用知识”和“用户特定记忆”，以避免在多轮对话中产生幻觉或混淆信息？

提示**: 思考如何在系统提示词中定义特定的结构化格式（如 XML 或 JSON 标签），并强制模型在调用记忆时必须引用来源或时间戳，而不是将其作为训练数据的一部分进行自由联想。

引用

原文链接: https://www.moltis.org
HN 讨论: https://news.ycombinator.com/item?id=46993587

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：产品与创业 / AI 工程
标签： AI助手 / Agent / 记忆机制 / 工具调用 / 自扩展 / Function Calling / Show HN / 智能体
场景： AI/ML项目

Agent Skills：AI 智能体技能框架
Agent Skills：智能体技能框架
🤖解密Codex智能体闭环：AI如何自主进化？
LinqAlpha利用Amazon Bedrock构建投资思路压力测试智能体
OpenEnv实践：评估真实环境中的工具调用智能体 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

Moltis：具备记忆与工具调用能力的自扩展AI助手