首个完全通用的计算机动作模型

基本信息

作者: nee1r
评分: 230
评论数: 64
链接: https://si.inc/posts/fdm1
HN 讨论: https://news.ycombinator.com/item?id=47125014

导语

随着大语言模型在文本与图像领域的成熟，研究重心正逐渐向智能体（Agent）的自主决策能力转移。本文介绍了首个完全通用的计算机动作模型，探讨了其如何突破传统 GUI 交互的局限，实现跨软件的复杂任务自动化。通过剖析该模型的技术原理与应用场景，读者将深入理解 AI 从“对话”迈向“行动”的关键路径，以及其对未来人机交互范式的深远影响。

深度评论：通用计算机动作模型的技术评估

1. 技术深度与架构评估

视觉-动作映射机制：该模型的核心创新在于摒弃了传统的DOM树解析或API调用，转而采用端到端的像素级输入。这种“视觉-动作”循环虽然在理论上模仿了人类的交互直觉，但在技术实现上，对模型的场景理解和抗干扰能力提出了极高要求。
跨平台泛化能力：文章论证了模型在不同操作系统（Windows/macOS/Web）上的一致性表现。这表明模型架构与底层系统实现了有效解耦，但在处理非图形界面（CLI）或后台服务进程时，纯视觉模型的介入能力存在物理局限。
上下文与记忆限制：现有的Transformer架构在处理长任务链时，仍面临上下文窗口截断和细节遗忘的问题。文章若未详细阐述其长期记忆机制或状态管理策略，则关于“通用性”的论证在处理复杂、多步骤任务时可能存在鲁棒性缺陷。

2. 实用价值与落地局限

自动化流程的革新：相比于传统RPA（机器人流程自动化）对固定规则的依赖，该模型具备处理非结构化数据（如验证码、弹窗）的潜力，能够显著降低企业自动化的脚本维护成本。
测试领域的应用潜力：在软件测试（QA）领域，基于自然语言描述生成测试用例的构想，若能实现高准确率，将大幅提升测试覆盖率和效率。
延迟与实时性瓶颈：基于视频理解的推理过程通常伴随较高的计算延迟。在需要高频交互或即时响应的场景（如游戏操作、高频交易）中，该模型的响应速度目前可能难以满足生产环境要求。
容错与安全风险：在开放的生产环境中，模型的误操作（如误删文件、错误发送邮件）可能导致不可逆的数据损失。缺乏有效的“安全刹车”机制或人工确认环节，限制了其在关键业务中的直接部署。

3. 创新性与行业现状

数据训练范式：文章可能探讨了利用大规模录屏数据进行自我监督学习的方法，这在一定程度上缓解了标注数据稀缺的问题。然而，如何从海量演示数据中过滤无效操作并提取核心逻辑，仍是未被完全解决的难题。
技术演进而非颠覆：从Google DeepMind的Agent研究到各类AutoGPT项目，基于屏幕的智能体概念已有较长的发展脉络。所谓的“首个”模型，更多可能体现在参数规模、数据集广度或工程整合上的优化，而非基础架构的根本性革命。

4. 行业影响与潜在风险

交互逻辑的重构：如果模型成熟，应用层的交互逻辑可能从“点击菜单”转变为“自然语言指令”。这可能改变用户与操作系统的交互方式，但对底层操作系统厂商的护城河构成实质性挑战尚需时日。
安全性悖论：赋予AI通用的计算机操作权限，同时也扩大了攻击面。如何防止模型被诱导执行恶意指令（如“转账”或“下载病毒”），是当前安全防御体系中的新盲点。
隐私合规挑战：模型训练若涉及用户录屏数据，将面临严峻的隐私合规审查。此外，对特定软件界面的模仿和学习，也可能触及UI设计的知识产权边界。

综合建议

部署策略：建议采用“人机协同”模式，即利用模型生成操作提案，由人工进行最终确认或执行，以平衡效率与安全。
环境隔离：在生产落地中，应将模型运行在沙箱或虚拟机环境中，实施严格的文件系统与网络隔离，防止潜在的错误扩散。
场景微调：通用模型在特定垂直领域的表现可能不如经过微调的专用模型。针对具体的ERP或CRM系统，使用少量领域数据进行微调是更务实的路径。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 示例1：自动化文件整理
import os
import shutil
from pathlib import Path

def organize_downloads():
    """自动将下载文件夹中的文件按类型分类到子文件夹"""
    download_path = Path.home() / "Downloads"
    file_types = {
        "Images": [".jpg", ".png", ".gif"],
        "Documents": [".pdf", ".docx", ".txt"],
        "Archives": [".zip", ".rar"]
    }
    
    for file in download_path.iterdir():
        if file.is_file():
            ext = file.suffix.lower()
            for folder, extensions in file_types.items():
                if ext in extensions:
                    target_dir = download_path / folder
                    target_dir.mkdir(exist_ok=True)
                    shutil.move(str(file), str(target_dir / file.name))
                    print(f"已移动 {file.name} 到 {folder}")

# 说明：这个示例展示了如何用Python自动化处理日常文件管理任务，
# 通过识别文件扩展名自动分类文件，模拟了计算机的"感知-决策-行动"循环。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
# 示例2：智能邮件分类器
import imaplib
import email
from email.header import decode_header

def classify_emails():
    """自动将邮件分类为工作、个人和促销三类"""
    imap_server = "imap.gmail.com"
    email_user = "your_email@gmail.com"
    email_pass = "your_password"
    
    # 连接到邮箱
    mail = imaplib.IMAP4_SSL(imap_server)
    mail.login(email_user, email_pass)
    mail.select("inbox")
    
    # 获取邮件
    _, messages = mail.search(None, "UNSEEN")
    for msg_id in messages[0].split():
        _, msg_data = mail.fetch(msg_id, "(RFC822)")
        for response_part in msg_data:
            if isinstance(response_part, tuple):
                msg = email.message_from_bytes(response_part[1])
                subject = decode_header(msg["Subject"])[0][0]
                if isinstance(subject, bytes):
                    subject = subject.decode()
                
                # 简单分类规则
                if "invoice" in subject.lower() or "project" in subject.lower():
                    print(f"工作邮件: {subject}")
                elif "sale" in subject.lower() or "offer" in subject.lower():
                    print(f"促销邮件: {subject}")
                else:
                    print(f"个人邮件: {subject}")
    
    mail.close()
    mail.logout()

# 说明：这个示例展示了如何实现基本的文本分类功能，
# 通过关键词匹配自动分类邮件，体现了计算机的"模式识别"能力。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# 示例3：智能日程助手
import datetime
import random

def schedule_assistant():
    """根据任务优先级自动安排日程"""
    tasks = [
        {"name": "完成项目报告", "priority": "high", "duration": 2},
        {"name": "团队会议", "priority": "medium", "duration": 1},
        {"name": "代码审查", "priority": "high", "duration": 1.5},
        {"name": "学习新技术", "priority": "low", "duration": 3}
    ]
    
    # 按优先级排序
    priority_order = {"high": 0, "medium": 1, "low": 2}
    tasks.sort(key=lambda x: priority_order[x["priority"]])
    
    # 安排日程
    current_time = datetime.datetime.now()
    schedule = []
    for task in tasks:
        start_time = current_time.strftime("%H:%M")
        end_time = (current_time + datetime.timedelta(hours=task["duration"])).strftime("%H:%M")
        schedule.append(f"{start_time}-{end_time}: {task['name']} (优先级: {task['priority']})")
        current_time += datetime.timedelta(hours=task["duration"])
    
    # 输出日程表
    print("今日日程安排:")
    for item in schedule:
        print(item)
    
    # 添加随机提醒
    if random.random() > 0.7:
        print("\n提醒: 记得在会议前5分钟准备材料！")

# 说明：这个示例展示了如何实现基本的任务调度和优先级管理，
# 模拟了人类决策过程中的"排序-规划-执行"流程。

案例研究

1：Cognition AI（Devin 智能体）

背景: Cognition AI 是一家致力于开发 AI 软件工程师的初创公司。随着大语言模型（LLM）在代码生成领域的突破，他们试图解决 AI 仅能完成片段代码编写，而无法处理整个软件开发生命周期（SDLC）的难题。

问题: 传统的代码辅助工具（如 GitHub Copilot）只能基于上下文预测下一行代码，无法理解复杂的工程环境、自主调试或运行终端命令。AI 无法像人类工程师一样，从需求分析开始，经历编写代码、修复错误、到最终部署上线的全流程操作。这导致 AI 在处理实际、复杂的编程任务时，往往需要大量人工干预，未能真正释放生产力。

解决方案: Cognition AI 开发了 Devin，这是一个被定义为“首个完全通用计算机动作模型”的 AI 软件工程师。Devin 不仅仅是一个语言模型，它被设计为一个能够自主行动的智能体。它拥有自己的 Shell、代码编辑器和浏览器。Devin 能够自主规划端到端的工程任务，通过“推理-行动-观察”的循环，实时编写代码、编译运行、查找并修复 Bug，甚至在发现自身错误时进行回溯和修正。

效果: 在实用的 SWE-bench 基准测试中（该测试包含来自 GitHub 真实开源项目的复杂问题），Devin 解决了 13.86% 的问题，而之前的顶尖模型（如 GPT-4 和 Claude 2）未经辅助的情况下仅能解决约 1.96% 的问题。Devin 展示了无需人类指导即可完成完整任务的能力，能够将繁琐的重复性开发工作自动化，让人类工程师专注于更具创造性的系统设计。

2：多模态 GUI 智能体在 RPA 中的应用（基于 OS-World 研究成果）

背景: 随着企业数字化转型的深入，许多业务流程（如客户服务、数据录入、财务报销）仍依赖于图形用户界面（GUI）的操作。传统的 RPA（机器人流程自动化）通常需要针对特定软件编写硬编码的脚本，维护成本高昂且脆弱，一旦界面元素位置变动，脚本就会失效。

问题: 传统的自动化工具缺乏泛化能力。面对从未见过的应用程序或界面布局发生变化的软件，现有的自动化机器人无法像人类一样通过“看”和“理解”来完成任务。企业迫切需要一种能够理解视觉界面并像人类一样操作鼠标和键盘的通用智能体，以降低自动化实施的门槛。

解决方案: 基于“完全通用计算机动作模型”的理念，研究人员（如 OS-World 项目）开发了能够直接与操作系统桌面环境交互的多模态智能体。该模型不再依赖底层的 API 接口或固定的 DOM 结构，而是像人类一样通过屏幕截图来“看”界面，理解视觉上下文，并输出鼠标移动、点击和键盘输入等原子动作。这种模型具备“看、想、做”的闭环能力，能够在 Windows、macOS 或 Linux 等通用操作系统上执行跨应用程序的任务。

效果: 这种通用动作模型在处理跨应用工作流时表现出极高的灵活性和鲁棒性。例如，在处理涉及浏览器、Excel 和邮件客户端的复杂报销流程时，该模型能够自主识别不同软件的界面变化并完成任务。在 OS-World 的基准测试中，这类通用智能体在处理跨平台、未见过的 GUI 任务时，成功率显著优于传统的 RPA 方案和早期的 LLM-based Agent，极大地降低了企业流程自动化的开发和维护成本。

3：Multion 浏览器助手

背景: 现代知识工作者每天需要在浏览器中处理大量繁琐的任务，如比价购物、安排行程、整理研究资料等。虽然现有的浏览器插件能提供部分辅助，但大多只能提供信息检索，无法代替用户完成一系列需要多步骤交互的操作。

问题: 用户经常需要在不同网页标签页之间切换、复制粘贴数据、填写表单，这些操作机械且耗时。现有的 AI 助手通常只能生成文本建议，无法直接接管浏览器控制权去替用户“点击”或“输入”。用户需要一个能真正“动手”的 AI 助理，而不仅仅是“动口”的建议者。

解决方案: Multion 是一个基于浏览器代理的 AI 产品，它集成了完全通用的计算机动作模型技术。用户只需用自然语言下达指令（例如：“去亚马逊找一款降噪耳机，价格低于 200 美元，并加入购物车”），Multion 就会接管浏览器。它能够解析当前网页状态，自主规划操作步骤，模拟人类的点击、滚动、打字等行为，在多个网站间跳转以完成目标。

效果: Multion 能够处理包含 10 到 20 个步骤的复杂网页交互任务。它不仅展示了在开放网络环境中自主导航的能力，还证明了通用动作模型在处理非确定性任务时的价值。对于用户而言，这节省了大量在网页间穿梭和重复输入的时间，将浏览器从“被动阅读工具”转变为“主动执行工具”，显著提升了个人生产力。

最佳实践

最佳实践指南

实践 1：构建多模态交互基础

说明: 计算机操作模型需要能够理解和处理视觉界面信息（如截图、DOM树）以及自然语言指令。建立强大的多模态输入处理能力是构建通用计算机代理的基础，确保模型能准确感知用户当前所处的软件环境。

实施步骤:

集成高精度的视觉编码器，用于解析屏幕截图和UI元素。
开发或使用OCR技术提取界面中的文本信息。
将视觉特征与自然语言指令进行对齐和融合。

注意事项: 确保视觉处理模块对不同的分辨率和DPI设置具有鲁棒性，避免因显示差异导致操作失败。

实践 2：实现动作空间的原子化与抽象

说明: 将复杂的计算机操作分解为可复用的原子动作（如点击、输入、滚动），同时支持更高层次的功能抽象。模型不应只依赖坐标点击，而应理解UI元素的语义和功能，从而生成更稳定的操作指令。

实施步骤:

定义标准的原子动作API集合。
开发中间层表示，将自然语言意图映射到具体的原子动作序列。
训练模型根据UI上下文选择正确的操作目标（如通过Accessibility Tree定位元素）。

注意事项: 平衡原子操作的粒度，过细会导致推理成本过高，过粗则缺乏灵活性。

实践 3：建立基于轨迹的思维链推理

说明: 通用计算机模型需要具备“规划-执行-反思”的能力。在执行操作前，模型应先生成思维链，明确当前步骤的目标、预期结果以及下一步计划，以提高长任务的成功率。

实施步骤:

在训练数据中包含高密度的推理轨迹。
在推理阶段强制模型输出思考过程，再输出动作。
实现多轮交互机制，允许模型根据执行结果修正后续计划。

注意事项: 思维链的引入会增加推理延迟，需根据任务复杂度动态调整思考深度。

实践 4：利用自监督数据进行规模化预训练

说明: 依赖人工标注的指令数据无法覆盖所有软件场景。最佳实践是利用大量的无监督计算机使用轨迹（如屏幕录制与键盘鼠标日志）进行预训练，让模型学习通用的计算机操作逻辑和UI模式。

实施步骤:

收集多样化的跨软件、跨平台的用户交互数据。
构建数据清洗管道，过滤敏感信息并标准化数据格式。
使用掩码建模等自监督学习方法进行大规模预训练。

注意事项: 必须严格处理用户隐私数据，确保数据采集的合规性和匿名化。

实践 5：引入环境反馈与自我修正机制

说明: 计算机环境是动态的，操作可能失败或产生意外结果。模型必须具备接收环境反馈（如报错弹窗、页面未变化）的能力，并能据此自我修正操作策略，而不是陷入死循环。

实施步骤:

设计闭环系统，将操作后的屏幕状态作为新一轮的输入反馈给模型。
训练模型识别常见的错误状态（如404页面、权限提示）。
设定最大重试次数或回退机制，防止无限循环。

注意事项: 反馈机制需要高效，避免因错误状态的累积导致上下文溢出。

实践 6：严格的安全沙箱与权限控制

说明: 赋予AI控制计算机的能力带来了巨大的安全风险。必须在受限的沙箱环境中运行模型，严格限制其文件系统访问、网络请求和系统级更改的权限，防止恶意操作或数据泄露。

实施步骤:

部署虚拟机或容器作为模型的操作环境。
实施白名单机制，限制模型只能访问特定的应用程序或文件夹。
在执行高风险操作（如删除文件、发送邮件）前引入人工确认环节。

注意事项: 安全策略应贯穿模型设计、训练和部署的全生命周期，不能仅依赖后期的外部拦截。

实践 7：设计跨平台的通用接口层

说明: 为了实现“完全通用”，模型需要能够跨越操作系统（Windows, macOS, Linux）和不同的应用程序进行工作。构建一个统一的抽象接口层，屏蔽底层系统的差异，是提高模型泛化能力的关键。

实施步骤:

开发适配层，将不同操作系统的API（如Win32, Cocoa, X11）转换为统一的操作指令。
针对Web端和桌面端采用不同的交互策略（DOM解析 vs 像素匹配）。
在训练集中包含不同平台的数据，确保模型对平台差异的鲁棒性。

注意事项: 需定期更新适配层以适配操作系统的新版本和主流软件的UI更新。

学习要点

首个通用计算机行动模型成功实现了从屏幕像素感知到键盘鼠标控制的端到端自动化，无需依赖任何内部API或系统特权。
该模型通过在真实计算机环境中进行大规模的自我监督学习，掌握了跨越不同应用程序和操作系统的通用操作逻辑。
它具备强大的上下文记忆与推理能力，能够根据屏幕视觉反馈自主拆解任务并处理长周期的复杂工作流。
模型展现出了卓越的泛化能力，能够适应从未见过的软件界面或网站，并有效应对环境变化带来的干扰。
这一突破标志着AI代理从单一任务执行向真正通用计算机控制（GC）的跨越，为构建自主数字智能奠定了基础。
尽管性能强大，但该模型在执行速度和极高精度要求的操作上仍面临技术挑战，存在一定的局限性。

常见问题

1: 什么是“第一个完全通用的计算机动作模型”？

A: 该模型指一种能够直接操作计算机图形用户界面（GUI）的智能系统。与只能处理文本或图像的专用模型不同，它具备将自然语言指令转换为鼠标点击、键盘输入等计算机操作的能力。其“通用性”体现在无需针对特定软件编写额外代码，而是通过视觉识别和逻辑推理，直接与各类应用程序的界面进行交互。

2: 这个模型是如何工作的，其技术原理是什么？

A: 该模型通常基于多模态大语言模型构建。其工作流程主要包含三个步骤：感知、推理和行动。首先，模型通过截图获取当前屏幕的视觉信息；其次，结合用户指令和屏幕上下文进行分析，规划下一步操作；最后，生成具体的控制指令（如坐标点击、文本输入）。这种闭环系统允许模型根据操作结果持续调整策略，以完成既定任务。

3: 它与现有的 AI 助手（如 Siri 或 ChatGPT）有什么区别？

A: 现有的 AI 助手主要功能是对话和生成内容，无法直接控制计算机环境。而该模型作为“Agent（智能体）”，具备直接操作数字界面的能力。例如，对于订票需求，它不是生成操作指南或链接，而是模拟人类操作，直接打开浏览器、填写表单并执行后续步骤，实现了从“信息处理”到“任务执行”的转变。

4: 使用这个模型是否存在安全风险？

A: 是的，存在安全风险。赋予 AI 控制键盘和鼠标的权限可能带来误操作或恶意使用的风险。为应对这一问题，通常采用“沙箱”机制将模型限制在隔离环境中运行，或实施“人机协同”策略，要求模型在执行高风险操作（如修改系统设置、发送消息或进行支付）前必须请求人类用户批准。

5: 该模型目前在实际应用中有哪些局限性？

A: 尽管该模型具备通用交互能力，但在实际应用中仍面临技术挑战。首先是响应延迟，图像处理和推理计算导致操作速度低于人类直接操作；其次是长任务规划能力，在处理多步骤复杂任务时，模型可能会出现逻辑中断或循环；最后是界面适应性，面对设计非标准化或高度复杂的工业软件时，其识别和操作的准确率可能会受到影响。

6: 这个模型会取代人类的工作吗？

A: 该模型更倾向于作为一种自动化工具来辅助人类工作。它适用于处理规则明确、重复性高的数字任务，如数据录入或基础软件测试，从而让人类专注于需要复杂判断和创造性的工作。虽然它可能改变某些岗位的工作流程，但目前主要是作为增强人类能力的工具，而非完全替代人类的角色。

7: 普通用户什么时候可以使用上这种技术？

A: 目前，这项技术主要处于研发和早期测试阶段（例如 Anthropic 的 Claude 计算机使用功能或 OpenAI 的 Operator）。虽然已有技术演示，但要达到消费级产品所需的稳定性、安全性和成本效益仍需时间。业界预计，在未来几年内，这类功能可能会逐渐集成到操作系统或办公软件中，以辅助工具的形式服务于大众。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**:

在构建计算机动作模型时，最基础的输入通常是对屏幕的视觉感知。请尝试使用 Python 调用一个简单的 OCR 库（如 Tesseract 或 PaddleOCR），截取你电脑屏幕上的一个特定区域（例如任务栏的时间或某个应用的标题栏文字），并将其转换为文本字符串输出。

提示**:

引用

原文链接: https://si.inc/posts/fdm1
HN 讨论: https://news.ycombinator.com/item?id=47125014

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / AI 工程
标签：计算机动作模型 / 通用模型 / LLM / AI Agent / 自动化 / 模型架构 / Hacker News / 前沿技术
场景：大语言模型 / AI/ML项目

首个完全通用的计算机动作模型
首个完全通用的计算机动作模型
Smooth CLI：面向 AI 智能体的低 Token 开销浏览器
首个完全通用的计算机动作模型发布
编码代理的成功对通用AI系统的启示 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

首个完全通用的计算机动作模型