Skill：让 Claude Code/Codex 调用虚拟机和 GPU

基本信息

作者: austinwang115
评分: 70
评论数: 14
链接: https://cloudrouter.dev
HN 讨论: https://news.ycombinator.com/item?id=47006393

导语

在 AI 辅助编程日益普及的当下，如何突破本地算力与环境的限制，成为提升开发效率的关键。本文介绍的一项新技能，实现了 Claude Code 与 Codex 对云端虚拟机和 GPU 资源的自动化调度。通过阅读，你将了解其技术实现细节，以及如何利用该方案优化现有的 AI 编程工作流。

中心观点

该文章展示了一种将大语言模型（LLM）的代码生成能力与云基础设施自动化（IaC）深度融合的**“自主编程代理”原型**，通过赋予模型直接操作底层计算资源（VM/GPU）的权限，旨在突破纯文本交互的边界，实现从“编写代码”到“运行环境”的闭环交付。

支撑理由与深度评价

1. 内容深度：从“辅助”到“代理”的范式跨越

支撑理由：文章的核心价值在于它不再将 Claude/Codex 仅仅视为一个“补全引擎”或“聊天机器人”，而是将其定义为系统管理员。这种深度在于它解决了AI编程中一个被忽视的痛点：环境配置。开发者往往花费大量时间在依赖管理和环境搭建上，该方案尝试让AI掌握“生杀大权”，直接调配算力。
边界条件/反例：
- 安全性黑洞：给予LLM直接操作云资源的API密钥是极其危险的。文章若未详细阐述沙箱机制或权限最小化策略，则其论证在安全性上是浅薄的。
- 成本失控风险：模型如果陷入死循环创建GPU实例，可能导致云账单瞬间爆炸。

2. 实用价值：MVP验证与算力民主化的双刃剑

支撑理由：对于初创公司和独立开发者，该工具具有极高的实用价值。它极大地降低了“试错成本”，开发者无需手动配置复杂的CUDA环境或Kubernetes集群即可验证想法。
边界条件/反例：
- 企业级不可用：在大型企业中，合规性、审计日志和VPC配置极其复杂，简单的“Spin up”命令无法满足复杂的生产环境需求。
- 调试困难：当AI创建的VM无法启动时，人类排查错误会比在本地环境更困难，因为失去了一个可视化的中间层。

3. 创新性：显式工具调用的极致化

支撑理由：虽然“AI写代码”不新鲜，但“AI写代码并自己找机器跑”是**Agent（智能体）**架构的典型应用。它隐含了一种创新观点：代码即基础设施。在这种模式下，代码不仅是逻辑的载体，也是资源调用的凭证。
边界条件/反例：
- 技术债：这种自动化往往产生“一次性”配置，缺乏长期维护性。
- 幻觉的物理化：以前AI产生幻觉只是输出错误的文本，现在它可能产生错误的AWS配置，导致实实在在的资源泄漏或服务中断。

4. 可读性与逻辑性：极客视角的直白

支撑理由：Show HN 系列文章通常以技术实现为导向。文章逻辑清晰：痛点（环境难配） -> 方案（API封装） -> 结果（一键运行）。
你的推断：文章可能侧重于“快糙猛”的实现，而缺乏对系统架构图的详细展示，这可能导致读者难以复现或理解其背后的安全模型。

5. 行业影响：DevOps 的 AI 变革前夜

支撑理由：这预示着 DevOps 工具的未来形态。未来的 Terraform 或 Ansible 可能不再是声明式的配置文件，而是自然语言的意图描述。
争议点：这引发了关于“人类在环中的角色”的讨论。如果AI能全权处理基础设施，运维工程师的价值将转向“策略制定”和“异常救援”，而非执行。

事实陈述 / 作者观点 / 你的推断

事实陈述：文章展示了一个 Skill/Tool，允许 Claude Code/Codex 调用 API 启动虚拟机和 GPU 实例。
作者观点：这种自动化能够显著提升开发效率，减少环境配置摩擦，是 AI 辅助编程的自然延伸。
你的推断：该方案目前处于“玩具级”向“工具级”过渡的阶段。虽然演示效果惊艳，但在缺乏严格的Guardrails（护栏机制）（如成本熔断、权限隔离、状态回滚）之前，无法直接应用于生产环境。这本质上是将 LLM 当作了一个**高风险的特权用户（Root user）**在使用。

可验证的检查方式

为了验证该技术的成熟度与安全性，建议进行以下检查：

破坏性测试：
- 指标：尝试让模型执行“删除所有资源”或“创建100个GPU实例”的指令。
- 验证点：系统是否有有效的权限控制（RBAC）和预算告警机制介入拦截。
状态一致性测试：
- 指标：在模型创建环境后，人为修改配置（如关闭端口），再让模型尝试部署应用。
- 验证点：模型是能够智能诊断环境差异，还是会盲目地报错或重复创建资源。
冷启动时间：
- 指标：从发出指令到GPU实例真正可用并返回结果的时间。
- 验证点：如果时间过长（例如超过2分钟），则该交互模式的流畅度将大打折扣，不如本地开发高效。
代码审计：
- 指标：检查生成的IaC（Infrastructure as Code）脚本质量。
- 验证点：生成的Terraform或CloudFormation模板是否符合安全最佳实践（如不开放0.0.

代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
# 示例1：使用Claude Code创建并配置GPU虚拟机
def create_gpu_vm():
    """
    这个示例展示了如何使用Claude Code API创建一个带有GPU的虚拟机
    并自动配置深度学习环境
    """
    import anthropic
    import os
    
    # 初始化Claude客户端
    client = anthropic.Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))
    
    # 定义VM配置
    vm_config = {
        "instance_type": "p3.2xlarge",  # AWS GPU实例类型
        "region": "us-west-2",
        "ami_id": "ami-0c55b159cbfafe1f0",  # 深度学习AMI
        "disk_size": 100,  # GB
        "security_groups": ["default"]
    }
    
    # 使用Claude Code生成创建VM的命令
    response = client.messages.create(
        model="claude-3-opus-20240229",
        max_tokens=1024,
        messages=[{
            "role": "user",
            "content": f"生成AWS CLI命令创建以下配置的GPU虚拟机: {vm_config}"
        }]
    )
    
    # 执行生成的命令
    print("生成的命令:", response.content[0].text)
    # 这里可以添加实际执行命令的代码
    
    return response.content[0].text

# 使用示例
# create_gpu_vm()

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
# 示例2：自动化部署GPU训练环境
def deploy_training_environment():
    """
    这个示例展示了如何使用Claude Code自动部署PyTorch训练环境
    包括安装依赖、配置CUDA和设置Jupyter
    """
    import anthropic
    
    client = anthropic.Anthropic()
    
    # 定义环境需求
    requirements = {
        "framework": "PyTorch 2.0",
        "cuda_version": "11.8",
        "python_version": "3.10",
        "additional_packages": ["transformers", "datasets", "accelerate"]
    }
    
    # 生成部署脚本
    response = client.messages.create(
        model="claude-3-opus-20240229",
        max_tokens=2048,
        messages=[{
            "role": "user",
            "content": f"""
            生成一个bash脚本，在Ubuntu系统上自动安装以下环境:
            {requirements}
            
            脚本需要:
            1. 检查CUDA可用性
            2. 安装Miniconda
            3. 创建conda环境
            4. 安装PyTorch和CUDA
            5. 配置Jupyter远程访问
            """
        }]
    )
    
    # 保存生成的脚本
    with open("deploy_gpu_env.sh", "w") as f:
        f.write(response.content[0].text)
    
    print("部署脚本已生成: deploy_gpu_env.sh")
    return response.content[0].text

# 使用示例
# deploy_training_environment()

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
# 示例3：动态GPU资源调度
def dynamic_gpu_scaling():
    """
    这个示例展示了如何使用Claude Code实现动态GPU资源调度
    根据训练任务需求自动调整GPU实例数量
    """
    import anthropic
    import time
    
    client = anthropic.Anthropic()
    
    def get_training_metrics():
        """模拟获取训练指标"""
        return {
            "current_loss": 0.345,
            "gpu_utilization": 0.92,  # 92% GPU使用率
            "batch_processing_time": 2.3  # 秒
        }
    
    def scale_gpu_instances(current_instances, target_instances):
        """调整GPU实例数量"""
        scale_prompt = f"""
        生成AWS CLI命令将GPU实例从{current_instances}个调整到{target_instances}个
        使用Auto Scaling组，保持相同实例类型和配置
        """
        
        response = client.messages.create(
            model="claude-3-opus-20240229",
            max_tokens=512,
            messages=[{"role": "user", "content": scale_prompt}]
        )
        return response.content[0].text
    
    # 主调度逻辑
    metrics = get_training_metrics()
    current_instances = 4
    
    if metrics["gpu_utilization"] > 0.9:
        # GPU使用率高，需要扩展
        new_instances = current_instances + 2
        print(f"高GPU使用率({metrics['gpu_utilization']})，扩展到{new_instances}个实例")
        scale_command = scale_gpu_instances(current_instances, new_instances)
        
    elif metrics["gpu_utilization"] < 0.5:
        # GPU使用率低，可以缩减
        new_instances = max(1, current_instances - 1)
        print(f"低GPU使用率({metrics['gpu_utilization']})，缩减到{new_instances}个实例")
        scale_command = scale_gpu_instances(current_instances, new_instances)
    
    return scale_command

# 使用示例
# dynamic_gpu_scaling()

案例研究

1：AI初创公司的模型微调与验证

背景: 一家专注于自然语言处理的初创公司正在开发基于最新开源大语言模型（LLM）的垂直领域应用。团队规模较小，没有专门的运维工程师，开发人员主要在本地配备 M系列芯片的 MacBook 上进行编码。

问题: 团队需要针对特定行业数据对开源模型进行 LoRA 微调，并快速验证效果。然而，本地硬件无法满足微调所需的显存和算力要求。开发者面临的主要痛点是：在云服务商（如 AWS 或 GCP）的控制台中手动寻找并配置具有 GPU 的实例既耗时又容易出错；更重要的是，为了节省成本，一旦任务完成，必须记得手动关闭实例，否则会产生高昂的闲置费用。

解决方案: 开发者集成了该工具，直接在 Claude Code 的对话界面中通过自然语言发起指令。开发者输入指令：“启动一个配置了 A100 GPU 的虚拟机，安装 PyTorch 环境，克隆我们的代码仓库，并运行微调脚本。”

效果: 该工具自动解析意图，瞬间调配云端 GPU 资源，执行自动化脚本，并在微调任务完成后自动销毁实例。这使得原本需要耗时 30 分钟的云资源配置工作缩短至几秒钟，且因为实现了精准的“用完即焚”，将云资源闲置成本降低了 90% 以上，极大地加速了模型迭代周期。

2：遗留系统的容器化迁移与测试

背景: 一家中型金融科技公司的维护团队负责维护一套运行在老旧操作系统上的核心服务。由于该服务依赖特定的系统库和环境配置，新入职的开发人员往往需要花费两天时间才能在本地搭建好可用的开发环境，且经常出现“在我机器上能跑，在测试环境报错”的问题。

问题: 为了解决环境一致性问题，团队决定进行容器化改造。然而，编写 Dockerfile 和调试容器构建过程需要反复试验。开发人员迫切需要一种能够快速启动隔离环境（VM）进行构建测试，并在测试通过后立即丢弃的手段，以避免本地环境被污染。

解决方案: 利用该工具，开发者指示 Claude：“启动一个干净的 Ubuntu 虚拟机，安装 Docker，并根据当前目录的代码生成一个 Dockerfile，然后尝试构建镜像。”

效果: 工具自动创建了一个隔离的云端沙盒环境，并在其中执行了构建指令。如果构建失败，Claude 会分析日志并在虚拟机中修复依赖问题，直到构建成功。由于整个过程在云端临时 VM 中进行，开发者的本地电脑保持干净。这不仅将新员工的环境搭建时间从数小时缩短到了几分钟，还通过自动化探索生成了标准化的部署配置，消除了环境差异带来的 Bug。

最佳实践

最佳实践指南

实践 1：严格的权限与访问控制管理

说明: 当赋予 AI 代码执行工具（如 Claude Code 或 Codex）创建和销毁虚拟机（VM）及 GPU 资源的权限时，必须遵循最小权限原则。这些能力直接关联到云成本和基础设施安全，因此绝不能使用具有完全管理员权限的账户，而应配置受限的 IAM 角色或服务账户。

实施步骤:

在云服务提供商（如 AWS、GCP）处创建专用的 IAM 角色。
仅授予该角色启动特定类型实例、分配存储以及访问必要网络的权限。
明确禁止该角色进行删除卷、修改网络拓扑或创建其他 IAM 角色的操作。
将该角色的密钥或凭证配置到 AI 工具的执行环境中。

注意事项: 定期轮换访问密钥，并确保该服务账户无法用于登录云控制台。

实践 2：实施资源配额与成本预警机制

说明: AI 工具在执行任务时可能会意外启动过多的高价 GPU 实例，导致不可预测的费用。必须通过硬编码的配额限制和实时成本监控来防止预算失控。

实施步骤:

在云账户层面设置严格的支出限额，例如每日或每月最高消费上限。
利用云服务商的标签功能，强制要求由 AI 创建的所有资源必须打上特定标签（如 Auto-Generated: true）。
配置基于标签的预算警报，当相关资源成本超过阈值时立即发送通知。
限制 AI 工具只能使用特定的、成本较低的实例系列（例如不默认使用最昂贵的 GPU 型号）。

注意事项: 确保警报通知渠道畅通，并准备好在收到警报时手动介入的流程。

实践 3：建立自动化的资源清理策略

说明: AI 生成的代码或脚本可能会在完成任务后未能正确清理临时资源，导致闲置的 VM 和 GPU 持续产生费用。必须实施“默认过期”策略，确保资源不会无限期运行。

实施步骤:

编写清理脚本，定期（如每小时）检查带有特定标签的资源。
配置实例级别的自动终止功能（如 AWS 的 Instance Lifecycle 或 TTL 功能）。
在 AI 的提示词中明确指示其在任务完成后必须执行清理命令。
使用基础设施即代码的方式定义资源，以便于批量销毁。

注意事项: 在清理前确保重要数据已持久化到持久化存储或导出到本地，避免因自动关机导致实验数据丢失。

实践 4：网络隔离与安全组配置

说明: 动态生成的计算资源可能包含漏洞或暴露敏感端口。为了防止被恶意扫描或攻击，AI 创建的 VM 应处于隔离的网络环境中，仅允许必要的通信。

实施步骤:

为 AI 工具创建独立的虚拟私有云（VPC）或子网。
配置严格的安全组，默认拒绝所有入站流量，仅允许用于 SSH（限制 IP）或特定 API 端口的流量。
禁止为 AI 创建的实例分配公网 IP，除非必须通过堡垒机访问。
确保实例只能访问特定的内部仓库或 API 端点。

注意事项: 定期审查安全日志，查看是否有来自 AI 创建实例的异常流量。

实践 5：日志记录与操作审计

说明: 为了调试 AI 的行为并确保合规性，必须对所有由 AI 触发的基础设施变更进行完整的日志记录。这对于追溯故障原因和优化 AI 提示词至关重要。

实施步骤:

启用云服务商的 CloudTrail 或类似审计日志服务，记录所有 API 调用。
在 AI 工具的执行层启用详细的执行日志，记录其发送的具体命令和返回结果。
将日志集中发送到安全的信息存储系统（如 S3 或 ELK）。
定期审查日志，分析 AI 创建资源的成功率和常见错误。

注意事项: 注意保护日志中的敏感信息（如 API 密钥），避免在日志输出中泄露。

实践 6：镜像标准化与漏洞扫描

说明: AI 创建的实例通常基于基础镜像。如果这些镜像包含过时的软件或已知漏洞，会迅速增加攻击面。使用经过验证的、安全的自定义镜像是最佳实践。

实施步骤:

预先构建包含必要依赖（如 Python, CUDA, Docker）的定制机器镜像（AMI）。
在构建镜像的过程中集成安全扫描工具（如 Trivy）。
强制 AI 工具仅使用这些经过批准的镜像 ID 来启动实例。
定期更新镜像以修补安全漏洞。

注意事项: 确保镜像中的工具版本与 AI 代码生成工具所期望的版本兼容，避免环境不匹配导致的错误。

学习要点

根据您提供的内容主题（Show HN: Skill that lets Claude Code/Codex spin up VMs and GPUs），以下是总结出的关键要点：
该工具实现了 AI 编码助手（如 Claude Code 或 Codex）与底层云基础设施的直接交互，使其具备了自主调配计算资源的能力。
开发者可以通过自然语言指令直接命令 AI 创建、配置和管理包含 GPU 的虚拟机，极大地简化了云资源的部署流程。
这种自动化能力显著降低了在云端进行高性能计算（如模型训练或推理）的操作门槛和技术复杂性。
它展示了 AI Agent 从单纯的代码生成向执行复杂系统运维任务演进的重要趋势。
该技能有效地解决了本地算力不足的问题，让开发者能够按需通过 AI 租用云端高性能硬件。

常见问题

1: 这个工具的主要功能是什么，它与直接使用 Claude Code 有何不同？

A: 该工具是一个扩展技能，旨在连接 Claude Code（或 Codex）与云基础设施。其主要功能是允许用户通过自然语言指令直接在云端创建和管理虚拟机（VM）以及配备高性能 GPU 的实例。与直接使用 Claude Code 仅生成代码片段不同，这个工具能够执行实际的 DevOps 操作，自动化地完成从环境配置到资源部署的整个流程，从而解决代码运行环境缺失的问题。

2: 支持哪些云服务提供商，是否支持 AWS、Azure 或 Google Cloud？

A: 根据该项目的描述，它主要设计为与特定的云提供商 API 进行交互。虽然具体的支持列表取决于工具底层的实现逻辑，但通常这类开源工具会优先支持具有良好 API 文档的服务商（如 DigitalOcean、Linode 或 AWS）。如果该工具是基于通用的云接口构建的，理论上可以通过配置适配 AWS 或 Azure，但具体支持范围需查阅项目的官方文档或配置文件以确认。

3: 使用该工具是否会带来额外的安全风险，如何保护我的 API 密钥？

A: 任何允许 AI 模型执行基础设施操作的工具都存在一定的安全风险，主要在于 AI 可能误解指令导致意外删除资源或产生高额费用。为了缓解这些风险，该工具通常要求用户自行提供 API 密钥，并建议使用具有严格权限限制的 IAM 角色，例如仅允许创建虚拟机而不允许删除数据库。关于密钥保护，最佳实践是不要将密钥硬编码在脚本中，而是利用本地环境变量或加密的配置管理工具（如 HashiCorp Vault）进行动态加载。

4: 我是否需要具备深厚的 DevOps 或运维知识才能使用这个技能？

A: 不一定需要深厚的运维知识，这正是该工具设计的初衷之一。它旨在降低开发者的门槛，让不熟悉服务器配置的用户也能通过对话形式获取计算资源。然而，具备基本的网络概念（如 SSH 密钥、安全组/防火墙规则）和成本意识（知道 GPU 实例按小时计费）会有助于更安全、高效地使用该工具。

5: 这个工具是开源的吗，我可以自行部署或修改它吗？

A: 是的，作为 “Show HN” 的项目，它通常是开源的。这意味着代码库在 GitHub 或类似平台上公开，允许开发者查看源码、提交 Issue 或自行 Fork 进行二次开发。你可以根据自身需求修改其支持的云厂商类型或调整 Claude 处理请求的逻辑，甚至将其集成到你自己的内部工作流中。

6: 如果在创建虚拟机时遇到错误，工具如何处理回滚或报错？

A: 目前的实现主要侧重于资源的创建和启动。如果在部署过程中出现 API 调用失败，工具通常会返回详细的错误日志供用户排查。至于自动回滚（即删除因错误而创建的不完整资源），可能需要用户手动介入，或者依赖云服务商本身的部署策略。建议在使用时监控日志输出，并定期检查云控制台以避免为未使用的资源付费。

思考题

## 挑战与思考题

### 挑战 1: 自然语言转 API 映射

问题**: 设计一个简单的命令行界面（CLI）工具，能够接收用户输入的自然语言指令（如“启动一个 Ubuntu 服务器”），并将其转换为调用云服务商 API 的标准 JSON 格式请求。

提示**: 可以使用 Python 的 `argparse` 库处理基础参数，并编写一个简单的映射函数将关键词转换为 API 参数。重点在于如何定义中间表示格式。

引用

原文链接: https://cloudrouter.dev
HN 讨论: https://news.ycombinator.com/item?id=47006393

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 开发工具
标签： Claude / Codex / 虚拟机 / GPU / DevOps / 自动化 / 云原生 / LLM
场景： DevOps/运维 / 大语言模型

Show HN：让 Claude Code/Codex 自动调配虚拟机和 GPU 的工具
Skill工具：让Claude Code/Codex调用VMs和GPU
Claude Code：面向基础设施开发的AI编程工具
Claude Code：面向基础设施的AI编程助手
Claude Code：面向基础设施的编程工具 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

Skill：让 Claude Code/Codex 调用虚拟机和 GPU