Benchmark

条目：26

2026年二月 25 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper 53款模型“洗车”测试：评估大模型代码生成鲁棒性 02-24 代码生成鲁棒性模型评估
[自动] [HACKER_NEWS]	5min	newspaper AI智能体自主性评估的实践方法 02-20 AI Agent 自主性评估体系
[自动] [HACKER_NEWS]	4min	newspaper AI智能体自主性水平的实践评估方法 02-20 AI Agent 自主性评估方法
[自动] [HACKER_NEWS]	5min	newspaper AI智能体自主性评估的实践方法 02-19 AI Agent 自主性评估方法
[自动] [HACKER_NEWS]	5min	newspaper AI智能体自主性的实践测量方法 02-19 AI Agent 自主性评估指标
[自动] [HACKER_NEWS]	5min	newspaper AI智能体自主性的实践评估方法 02-19 AI Agent 自主性评估方法
[自动] [HACKER_NEWS]	5min	newspaper AI智能体自主性评估的实践方法与指标 02-19 AI Agent 自主性评估指标
[自动] [HACKER_NEWS]	6min	newspaper 仅改用Harness框架即可提升15个大模型编程能力 02-13 LLM 代码生成 Harness
[自动] [HACKER_NEWS]	7min	newspaper 仅更换框架，一下午提升15个大模型代码能力 02-13 LLM 代码生成模型评估
[自动] [HACKER_NEWS]	4min	newspaper 仅修改框架，一下午提升15个大模型代码能力 02-13 LLM 代码生成框架优化
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv 实践：在真实环境中评估工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	4min	newspaper 仅调整框架一下午提升15个大模型编程能力 02-12 LLM 代码生成模型评估
[自动] [HACKER_NEWS]	4min	newspaper 仅调整框架，一下午提升15个大模型编码能力 02-12 LLM 代码生成 Prompt Engineering
[自动] [HACKER_NEWS]	4min	newspaper 仅替换调度框架，一下午提升15个大模型编程能力 02-12 LLM 代码生成调度框架
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	5min	newspaper 仅更换调度框架，一下午提升15个大模型代码能力 02-12 LLM 代码生成调度框架
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-12 OpenEnv 智能体 Agent
[自动] [HACKER_NEWS]	3min	newspaper GPT-5在法律推理实验中表现优于联邦法官 02-12 GPT-5 法律推理联邦法官
[自动] [HACKER_NEWS]	5min	newspaper Agent Skills：AI 智能体技能评估框架 02-04 Agent 智能体评估框架
[自动] [ARXIV]	5min	school AgentRx：基于执行轨迹的AI智能体故障诊断 02-04 AgentRx AI Agent 故障诊断
[自动] [HACKER_NEWS]	4min	newspaper 构建AI版Wattpad以评估大模型小说创作能力 02-03 LLM 小说创作模型评估
[自动] [HACKER_NEWS]	6min	newspaper Agent Skills：大模型智能体的技能评估框架 02-03 Agent LLM 评估框架
[自动] [HACKER_NEWS]	4min	newspaper AI 基准测试新进展：Game Arena 推进评估方法 02-03 AI 基准测试 Game Arena 模型评估
[自动] [ARXIV]	4min	school PaperBanana：面向AI科研人员的学术绘图自动化工具 02-02 PaperBanana 学术绘图 VLM
[自动] [ARXIV]	3min	school 挖掘模型仓库中的隐藏价值 02-01 模型评估 Llama 微调

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 🚗AgentDrive重磅发布！首个Agent推理开源自驾数据集🔥 01-27 AgentDrive 自动驾驶 Agent AI