Skill工具：让Claude Code/Codex调用VMs和GPU

基本信息

作者: austinwang115
评分: 23
评论数: 7
链接: https://cloudrouter.dev
HN 讨论: https://news.ycombinator.com/item?id=47006393

导语

随着 AI 辅助编程工具的普及，开发者对算力的需求已不再局限于本地资源。本文介绍了一项名为 Skill 的技术，它允许 Claude Code 或 Codex 直接调用云端 VM 和 GPU，从而将代码生成与资源部署无缝衔接。阅读本文，你将了解该工具的实现原理，以及如何利用它突破本地硬件限制，构建更流畅的云端开发工作流。

中心观点 文章展示了一种通过自然语言指令直接调用底层云资源（VM/GPU）的自动化工作流，标志着AI编程助手从“代码生成”向“系统构建”的演进，但也暴露了在安全边界与成本控制上的显著挑战。

支撑理由与深度评价

1. 内容深度：从“写脚本”到“控基础设施”的范式跨越

分析： 文章的核心深度在于它打破了IDE（集成开发环境）与云基础设施控制台之间的隔阂。传统的Copilot工具仅限于补全函数或重构代码片段，而该Skill（技能）赋予了LLM调用API创建、销毁虚拟机的能力。这不仅仅是效率工具，更是一种代理雏形。
事实陈述： 文章演示了通过对话指令启动带有GPU的实例，并自动配置环境。
你的推断： 这种技术栈通常依赖于LLM极强的函数调用能力，以及云服务商（如AWS/Azure）或VPS提供商（如DigitalOcean/Linode）暴露的高权限API Key。这要求模型不仅理解自然语言，还要理解网络、SSH密钥管理和安全组配置等运维知识。

2. 实用价值：解决“环境配置”这一开发痛点

分析： 对开发者而言，最大的痛点往往是“在我的机器上能跑”。该工具通过自动化创建隔离的、标准化的云环境，极大地降低了测试新框架、运行重型模型或进行临时沙盒实验的门槛。
作者观点： 作者认为这能极大缩短从“想法”到“运行”的时间。
批判性思考： 实用性高度依赖于网络带宽和云厂商的启动速度。如果创建一个VM需要3-5分钟，这种交互的流畅感将大打折扣，不如本地Docker容器实用。

3. 创新性：AI Agent的“手”终于伸向了计算资源

分析： 以往的AI Coding工具是“大脑”在“纸”上写字。这个创新在于AI现在拥有了“手”，可以操作真实的计算资源。它将自然语言直接映射为了基础设施即代码。
你的推断： 这可能预示着未来的开发模式将不再需要手动操作CI/CD流水线，而是由AI直接动态调度资源。

反例与边界条件

安全性悖论（致命弱点）：
- 给予AI控制底层基础设施的权限是极其危险的。如果LLM产生幻觉，误执行了terraform destroy或创建了昂贵的GPU集群却未关闭，用户的账单将遭受灾难性损失。
- 边界条件： 该工具目前仅适合个人沙盒实验，绝不能直接应用于生产环境，除非配合严格的审批链路和预算熔断机制。
调试的“黑盒”困境：
- 当AI创建的VM无法通过SSH连接，或者环境配置出错时，开发者如何调试？如果AI只能重试而不能解释具体的网络错误，那么排错时间可能比手动搭建更长。
- 边界条件： 仅适用于标准化、成熟的镜像配置，一旦涉及复杂的依赖冲突，AI可能会陷入死循环。

行业影响与争议

行业影响： 这种模式如果成熟，将直接冲击低代码平台和DevOps工具链。它可能催生“按需计算”的极致形态——即“用完即焚”的临时环境成为常态。
争议点： 核心争议在于信任与权限。行业普遍担心“失控的AI代理”。此外，这也可能引发云厂商的关注，如果AI过度消耗资源，可能会触发API限流或封禁。

可验证的检查方式

成本控制实验：
- 指标： 设定一个严格的预算上限（如$5），观察AI在多次尝试失败并重启VM时，是否能有效感知并停止操作，还是会耗尽额度。
环境一致性测试：
- 实验： 让AI分别创建基于不同操作系统（如Ubuntu vs Amazon Linux）的GPU实例，并安装CUDA库。
- 检查点： 观察其生成的配置脚本是否具有鲁棒性，是否会出现版本不兼容导致的安装失败。
安全性观察窗口：
- 指标： 审查生成的代码或API调用日志，检查是否包含硬编码的密钥，或者AI是否倾向于请求过宽的IAM权限（如AdministratorAccess）。

实际应用建议

沙盒化使用： 建议仅在独立的云账号或子账户中使用此技能，并配置严格的计费告警。
人机协同： 不要让AI全自动执行“销毁”操作。将删除资源设为手动确认步骤是必要的风控手段。
日志审计： 开启详细的CloudTrail或类似审计日志，确保AI的每一次API调用都有据可查，以便分析其行为模式。

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
# 示例1：使用Python脚本通过SSH远程启动VM
import paramiko
import time

def start_remote_vm(hostname, username, password, vm_name):
    """
    通过SSH连接到远程服务器并启动指定的虚拟机
    
    参数:
        hostname (str): 远程服务器地址
        username (str): SSH用户名
        password (str): SSH密码
        vm_name (str): 要启动的虚拟机名称
    """
    try:
        # 创建SSH客户端
        ssh = paramiko.SSHClient()
        ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())
        
        # 连接到远程服务器
        ssh.connect(hostname, username=username, password=password)
        
        # 执行启动VM的命令
        stdin, stdout, stderr = ssh.exec_command(f"virsh start {vm_name}")
        
        # 等待命令执行完成
        time.sleep(2)
        
        # 检查命令执行结果
        exit_status = stdout.channel.recv_exit_status()
        if exit_status == 0:
            print(f"成功启动虚拟机: {vm_name}")
        else:
            print(f"启动虚拟机失败: {stderr.read().decode()}")
            
    except Exception as e:
        print(f"发生错误: {str(e)}")
    finally:
        ssh.close()

# 使用示例
start_remote_vm("192.168.1.100", "admin", "password", "my_vm")

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
# 示例2：使用OpenStack API动态分配GPU资源
from openstack import connection
import os

def create_gpu_instance(auth_url, project_name, username, password, 
                        image_id, flavor_id, network_id, gpu_count=1):
    """
    使用OpenStack API创建带有GPU的虚拟机实例
    
    参数:
        auth_url (str): OpenStack认证服务地址
        project_name (str): 项目名称
        username (str): 用户名
        password (str): 密码
        image_id (str): 镜像ID
        flavor_id (str): 虚拟机规格ID
        network_id (str): 网络ID
        gpu_count (int): 需要的GPU数量
    """
    # 创建OpenStack连接
    conn = connection.Connection(
        auth_url=auth_url,
        project_name=project_name,
        username=username,
        password=password
    )
    
    try:
        # 创建服务器实例
        server = conn.compute.create_server(
            name=f"gpu-instance-{os.getpid()}",
            image_id=image_id,
            flavor_id=flavor_id,
            networks=[{"uuid": network_id}],
            # 添加GPU资源请求
            scheduler_hints={"group": f"gpu-group-{gpu_count}"}
        )
        
        print(f"成功创建GPU实例: {server.id}")
        return server.id
        
    except Exception as e:
        print(f"创建GPU实例失败: {str(e)}")
        return None

# 使用示例
create_gpu_instance(
    auth_url="http://openstack.example.com:5000/v3",
    project_name="my_project",
    username="my_user",
    password="my_password",
    image_id="image-uuid",
    flavor_id="flavor-uuid",
    network_id="network-uuid",
    gpu_count=2
)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
# 示例3：使用Kubernetes API动态创建GPU Pod
from kubernetes import client, config
import time

def create_gpu_pod(pod_name, gpu_type="nvidia.com/gpu", gpu_count=1):
    """
    使用Kubernetes API创建带有GPU的Pod
    
    参数:
        pod_name (str): Pod名称
        gpu_type (str): GPU资源类型
        gpu_count (int): 需要的GPU数量
    """
    try:
        # 加载Kubernetes配置
        config.load_kube_config()
        
        # 创建API客户端
        api = client.CoreV1Api()
        
        # 定义Pod规格
        pod = client.V1Pod(
            metadata=client.V1ObjectMeta(name=pod_name),
            spec=client.V1PodSpec(
                containers=[
                    client.V1Container(
                        name="gpu-container",
                        image="nvidia/cuda:11.0.3-base-ubuntu20.04",
                        resources=client.V1ResourceRequirements(
                            requests={gpu_type: str(gpu_count)},
                            limits={gpu_type: str(gpu_count)}
                        ),
                        command=["nvidia-smi"]  # 显示GPU信息
                    )
                ]
            )
        )
        
        # 创建Pod
        api.create_namespaced_pod(namespace="default", body=pod)
        print(f"成功创建GPU Pod: {pod_name}")
        
        # 等待Pod就绪
        while True:
            pod_status = api.read_namespaced_pod(name=pod_name, namespace="default")
            if pod_status.status.phase == "Running":
                print("GPU Pod已就绪")
                break
            time.sleep(1)
            
    except Exception as e:
        print(f"创建GPU Pod失败: {str(e)}")

# 使用示例
create_gpu_pod("gpu-pod-example", gpu_count=2)

案例研究

1：AIGC 初创公司的快速原型验证

背景: 一家专注于生成式 AI 应用的初创公司正在开发一款基于最新开源大模型（如 Llama 3 或 Stable Diffusion）的产品。团队规模较小，主要由算法工程师组成，缺乏专职的 DevOps 或后端运维人员。

问题: 在进行算法迭代和模型微调时，团队面临严重的算力瓶颈。本地开发机算力不足，而公司现有的云资源申请流程繁琐，需要手动通过控制台创建实例、配置环境、安装依赖，通常需要半天时间才能准备好一个可用的开发环境。此外，为了控制成本，团队成员经常忘记在不用时关闭 GPU 实例，导致预算浪费。

解决方案: 利用 Claude Code/Codex 集成的 VM 和 GPU 自动编排技能。工程师直接在代码编辑器中通过自然语言指令（例如“启动一个 4 卡 A100 实例，安装 PyTorch 2.0 环境，并运行 finetuning 脚本”），让 AI 自动调用云接口完成资源创建、环境部署和任务运行。

效果: 开发环境的准备时间从数小时缩短至 5 分钟以内。AI 助手还能在任务完成后自动检测并释放资源，将云资源闲置率降低了 90%。团队不再需要为琐碎的运维操作分心，完全专注于模型优化，产品迭代速度提升了一倍。

2：遗留系统的自动化安全审计

背景: 一家中型金融科技公司的安全团队需要对一个拥有 10 年历史的遗留 Java 系统进行全面的安全审计和代码重构。该系统部署在隔离的虚拟机环境中，依赖关系复杂，文档缺失。

问题: 传统的审计方式需要安全专家在本地搭建与生产环境一致的虚拟机，手动配置复杂的中间件和网络环境。这不仅耗时，而且容易出现环境不一致导致的问题（如“在我机器上能跑”）。由于环境搭建困难，团队无法频繁进行大规模的自动化扫描测试。

解决方案: 安全研究人员使用 Codex/Claude 编写脚本，利用其控制 VM 的能力，动态生成一套“即用即弃”的审计环境。AI 代码助手自动启动隔离的虚拟机，部署遗留系统，并在其中运行安全扫描工具（如 SonarQube 或 dependency-check）。扫描完成后，AI 分析日志并关闭 VM。

效果: 审计环境的部署实现了完全自动化，消除了人工配置错误的风险。安全团队能够以极低的成本频繁启动多个并行审计节点，将原本需要 3 周完成的全量代码审计工作压缩到了 3 天内完成，并成功发现了多个潜在的高危漏洞。

3：高校科研实验室的弹性算力调度

背景: 某高校计算机视觉研究实验室拥有数十名研究生，由于校级共享服务器资源紧张，学生经常需要排队等待 GPU 资源来运行训练实验。

问题: 实验室拥有一定的云服务额度，但学生普遍缺乏云服务操作经验。申请云端 GPU 资源涉及复杂的网络配置、安全组设置和 Docker 镜像管理，导致大部分学生宁愿在校内服务器排队也不愿使用云端资源，严重影响了科研进度。

解决方案: 实验室技术负责人集成了 Claude Code 的技能，开发了一个简易的内部机器人。学生只需在代码注释中或通过对话框输入指令（如“申请 2 张 V100 GPU 运行 8 小时，使用 dataset_v2 数据集”），AI 即可自动处理云端 VM 的创建、数据挂载和训练监控。

效果: 实验室的云资源利用率从几乎为 0 提升到了 80%。学生无需学习云服务细节即可获得弹性算力，实验排队现象消失。该机制还支持自动保存训练日志到本地存储并销毁云端实例，极大简化了科研数据的管理流程。

最佳实践

最佳实践指南

实践 1：基础设施即代码的严格版本控制

说明: 在使用 AI 工具（如 Claude Code/Codex）动态创建和管理云资源时，必须将所有生成的配置文件、Terraform 脚本或 Cloud Formation 模板纳入严格的版本控制系统。这不仅能防止配置漂移，还能在出现安全漏洞或资源过度消耗时快速回滚。

实施步骤:

初始化 Git 仓库并确保 .gitignore 正确配置（排除敏感密钥但包含配置模板）。
在 AI 生成基础架构代码后，立即进行代码审查，检查是否存在硬编码的密钥或过于开放的权限（如 0.0.0.0/0 访问权限）。
为所有基础设施变更实施强制合并请求（PR）流程。

注意事项: AI 生成的代码有时会包含过时的 API 调用或不安全的默认配置，切勿在未审查的情况下直接应用生成的脚本。

实践 2：实施严格的成本预算与自动销毁机制

说明: AI 辅助编程极易导致高算力资源（如 GPU 实例）的意外长时间运行，从而产生高昂的云服务账单。必须建立“生存时间”（TTL）策略，确保非生产环境的资源在闲置或任务完成后自动销毁。

实施步骤:

在云服务账户中设置硬性支出限额和告警阈值。
使用 Terraform 或 Cloud Scheduler 配置自动终止规则，例如在每天非工作时间自动关闭开发环境 GPU。
为 AI 创建的实例默认附加“启动后 X 小时自动删除”的元数据标签。

注意事项: 避免将 AI 工具直接关联到具有无限额度的生产环境信用卡上，应使用仅拥有必要权限和有限额度的子账户。

实践 3：遵循最小权限原则配置 IAM 角色

说明: Claude Code 或 Codex 需要调用云 API 来启动虚拟机。切勿为了方便而授予 AI 工具或其运行环境管理员级别的 root 权限。应精确限制其仅能创建、修改和销毁特定的计算资源。

实施步骤:

创建专用的 IAM 用户或服务账号，仅授予 ec2:RunInstances, ec2:TerminateInstances 等特定权限。
明确限制该角色只能创建特定类型（如 t3.micro, g4dn.xlarge）的实例，防止 AI 错误地启动极其昂贵的硬件。
禁止该 IAM 角色拥有删除网络基础设施（如 VPC, 子网）或修改 IAM 策略本身的权限。

注意事项: 定期审查 CloudTrail 日志，监控是否有异常的资源创建尝试或权限升级行为。

实践 4：强制实施网络隔离与安全组配置

说明: 动态生成的虚拟机往往配置默认开放的安全组，极易成为攻击目标。必须确保 AI 生成的实例默认拒绝入站流量，仅允许必要的受管理访问通道。

实施步骤:

预先定义严格的安全组模板，仅允许 SSH (端口 22) 或特定端口的访问，且来源 IP 应限制为管理员的 IP 或堡垒机地址。
禁止实例被分配公网 IP，除非业务必须，并强制要求所有实例位于私有子网中，通过堡垒机或 SSM Session Manager 进行访问。
确保 AI 生成的用户数据脚本中不包含明文密码，而是强制使用 SSH 密钥对。

注意事项: 如果 AI 工具需要安装软件包，确保实例拥有出站互联网权限（通过 NAT Gateway），但绝不能允许外部随意入站连接。

实践 5：确保环境配置的幂等性与可重复性

说明: AI 生成的命令脚本可能包含一次性安装命令（如 apt-get install），这会导致在重启或重建环境时失败。最佳实践是确保所有环境配置都是幂等的，即多次执行结果一致。

实施步骤:

不要让 AI 直接在 Shell 中运行复杂的安装脚本，而是要求其生成 Ansible Playbooks、Puppet 清单或 Dockerfile。
确保所有依赖项、库版本和系统配置都在代码中明确指定，避免使用 latest 标签，防止版本更新导致的不兼容。
在销毁并重建 VM 后，验证新环境是否与旧环境完全一致。

注意事项: 避免在实例内部存储持久化数据，应将所有日志和数据输出到外部对象存储（如 S3），以便 VM 可以随时被替换。

实践 6：建立审计日志与自动化监控反馈循环

说明: AI 操作的透明度对于安全至关重要。必须记录每一次由 AI 触发的资源创建、修改或删除操作，并将这些操作转化为可观测的指标。

实施步骤:

启用云服务商（如 AWS CloudTrail, GCP Cloud Audit Logs）的所有管理事件日志记录，并将其导出到中央日志分析系统（如 Splunk 或 ELK）。 2

学习要点

该工具通过 API 将 Claude Code/Codex 与云服务提供商（如 AWS、GCP）直接集成，实现了自动化创建和管理虚拟机（VM）及 GPU 实例。
用户可以通过自然语言指令动态分配高性能计算资源（如 GPU），从而在本地环境中无缝执行需要大规模算力的任务。
工具支持自动配置开发环境，包括安装依赖、设置网络和部署代码，显著降低了基础设施管理的复杂性。
通过按需创建和销毁资源，该方案帮助用户优化成本，避免为闲置的计算资源付费。
它展示了 AI 编程助手从代码生成向基础设施自动化扩展的趋势，提升了开发者在云原生应用开发中的效率。
工具可能包含安全机制（如临时凭证或权限限制），以防止 AI 意外操作导致的高额费用或资源滥用。

常见问题

1: 这个工具的核心功能是什么？

A: 该工具是一个技能扩展，旨在将 Claude Code 或 Codex 等 AI 编码模型与云基础设施管理相结合。它的核心功能是允许 AI 模型不仅仅是编写代码，还能直接执行操作来启动和管理虚拟机以及 GPU 实例。这意味着开发者可以通过自然语言指令，让 AI 自动完成开发环境的配置、服务器的部署以及高性能计算资源的分配，从而打通从“代码生成”到“环境部署”的最后一公里。

2: 使用该工具启动 GPU 实例的主要应用场景有哪些？

A: 启动 GPU 实例通常用于计算密集型任务，主要场景包括：

机器学习与深度学习：训练大型语言模型、计算机视觉模型或进行数据推理。
科学计算与模拟：处理复杂的数学建模或物理模拟。
图形渲染与视频处理：进行 3D 渲染、高清视频转码或特效生成。
开发环境测试：在需要 CUDA 支持的环境中验证代码性能。

3: 在安全性方面，将 AI 与云基础设施（如创建虚拟机）连接是否存在风险？

A: 是的，这确实是一个高风险操作。为了安全起见，此类工具通常会实施严格的权限控制和安全沙箱机制：

最小权限原则：授予 AI 模型的身份仅拥有创建和管理特定资源的权限，而不能访问账户中的敏感数据或删除关键基础设施。
人工确认机制：在执行“创建资源”或“产生费用”的操作前，系统通常要求用户进行显式的人工确认，防止 AI 误操作导致意外扣费。
操作审计：所有的 AI 指令和执行日志通常会被记录，以便追溯和监控。

4: 它支持哪些云服务提供商（如 AWS, Azure, GCP）？

A: 根据此类开源工具的常见设计，它通常通过 API 与云服务商进行交互。虽然具体的支持列表取决于该项目的实现细节，但一般设计上会倾向于支持主流的公有云提供商，例如 AWS（通过 EC2 API）、Google Cloud（通过 Compute Engine API）或 Azure。用户通常需要配置相应的 API 密钥或凭证文件，以便该技能能够代表用户向云服务商发起请求。

5: 相比于手动配置服务器，使用 AI 自动化部署有哪些优势？

A: 主要优势在于效率和降低认知门槛：

速度：AI 可以在几秒钟内生成正确的配置脚本（如 Terraform 或 Cloud Formation 模板）并执行，大大缩短了环境搭建时间。
自动化运维：可以根据负载情况自动调整实例规格，或者在任务完成后自动关闭实例以节省成本。
自然语言交互：开发者不需要记忆复杂的云厂商命令行工具（CLI）参数，只需描述需求（例如“启动一台 4 核 16G 内存的服务器”），AI 即可处理具体的参数映射。

6: 成本如何控制？是否会因为 AI 误操作导致高昂的云服务账单？

A: 成本控制是此类工具的重点关注对象。除了上述的安全限制外，该工具可能包含以下成本控制特性：

自动销毁：可以设定任务（如模型训练）完成后自动终止实例。
预算警报：集成云厂商的计费 API，当预估费用超过阈值时发出警告。
Spot 实例支持：AI 可以被配置为优先使用廉价的 Spot 实例来运行容错性高的任务，从而大幅降低成本。

思考题

## 挑战与思考题

### 挑战 1: [简单] 自然语言指令解析器

问题**: 设计一个简单的 CLI 工具，能够接受用户输入的自然语言指令（如“启动一个 Ubuntu 服务器”），并将其转换为调用云服务商 API 的标准命令。

提示**: 可以使用 Python 的 `argparse` 库处理命令行参数，并尝试定义一套简单的指令映射规则。考虑如何解析关键词（如 OS 类型）并填充到 API 调用模板中。

引用

原文链接: https://cloudrouter.dev
HN 讨论: https://news.ycombinator.com/item?id=47006393

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 开发工具
标签： Claude / Codex / VM / GPU / DevOps / 自动化 / 云资源 / 编程辅助
场景： DevOps/运维

LNAI：统一定义 AI 编码工具配置并同步至多端
Claude Code：面向基础设施开发的AI编程工具
Claude Code：面向基础设施的编程工具
Claude Code：面向基础设施的AI编程助手
Claude Code 发布：面向基础设施的编程工具 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

Skill工具：让Claude Code/Codex调用VMs和GPU