terminal

AI Stack

rss_feed
SYS_STABLE
目录

Benchmark

条目:26
2026年二月 25 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper 53款模型“洗车”测试:评估大模型代码生成鲁棒性
02-24 代码生成 鲁棒性 模型评估
[自动] [HACKER_NEWS]
5minnewspaper AI智能体自主性评估的实践方法
02-20 AI Agent 自主性 评估体系
[自动] [HACKER_NEWS]
4minnewspaper AI智能体自主性水平的实践评估方法
02-20 AI Agent 自主性 评估方法
[自动] [HACKER_NEWS]
5minnewspaper AI智能体自主性评估的实践方法
02-19 AI Agent 自主性 评估方法
[自动] [HACKER_NEWS]
5minnewspaper AI智能体自主性的实践测量方法
02-19 AI Agent 自主性 评估指标
[自动] [HACKER_NEWS]
5minnewspaper AI智能体自主性的实践评估方法
02-19 AI Agent 自主性 评估方法
[自动] [HACKER_NEWS]
5minnewspaper AI智能体自主性评估的实践方法与指标
02-19 AI Agent 自主性 评估指标
[自动] [HACKER_NEWS]
6minnewspaper 仅改用Harness框架即可提升15个大模型编程能力
02-13 LLM 代码生成 Harness
[自动] [HACKER_NEWS]
7minnewspaper 仅更换框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 模型评估
[自动] [HACKER_NEWS]
4minnewspaper 仅修改框架,一下午提升15个大模型代码能力
02-13 LLM 代码生成 框架优化
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv 实践:在真实环境中评估工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
4minnewspaper 仅调整框架一下午提升15个大模型编程能力
02-12 LLM 代码生成 模型评估
[自动] [HACKER_NEWS]
4minnewspaper 仅调整框架,一下午提升15个大模型编码能力
02-12 LLM 代码生成 Prompt Engineering
[自动] [HACKER_NEWS]
4minnewspaper 仅替换调度框架,一下午提升15个大模型编程能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
5minnewspaper 仅更换调度框架,一下午提升15个大模型代码能力
02-12 LLM 代码生成 调度框架
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]
3minnewspaper GPT-5在法律推理实验中表现优于联邦法官
02-12 GPT-5 法律推理 联邦法官
[自动] [HACKER_NEWS]
5minnewspaper Agent Skills:AI 智能体技能评估框架
02-04 Agent 智能体 评估框架
[自动] [ARXIV]
5minschool AgentRx:基于执行轨迹的AI智能体故障诊断
02-04 AgentRx AI Agent 故障诊断
[自动] [HACKER_NEWS]
4minnewspaper 构建AI版Wattpad以评估大模型小说创作能力
02-03 LLM 小说创作 模型评估
[自动] [HACKER_NEWS]
6minnewspaper Agent Skills:大模型智能体的技能评估框架
02-03 Agent LLM 评估框架
[自动] [HACKER_NEWS]
4minnewspaper AI 基准测试新进展:Game Arena 推进评估方法
02-03 AI 基准测试 Game Arena 模型评估
[自动] [ARXIV]
4minschool PaperBanana:面向AI科研人员的学术绘图自动化工具
02-02 PaperBanana 学术绘图 VLM
[自动] [ARXIV]
3minschool 挖掘模型仓库中的隐藏价值
02-01 模型评估 Llama 微调
2026年一月 1 篇
类型阅读条目
[自动] [ARXIV]
5minschool 🚗AgentDrive重磅发布!首个Agent推理开源自驾数据集🔥
01-27 AgentDrive 自动驾驶 Agent AI