目录
Benchmark
条目:26
2026年二月
25 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
53款模型“洗车”测试:评估大模型代码生成鲁棒性 02-24
代码生成
鲁棒性
模型评估 |
[自动]
[HACKER_NEWS] | 5min | newspaper
AI智能体自主性评估的实践方法 02-20
AI Agent
自主性
评估体系 |
[自动]
[HACKER_NEWS] | 4min | newspaper
AI智能体自主性水平的实践评估方法 02-20
AI Agent
自主性
评估方法 |
[自动]
[HACKER_NEWS] | 5min | newspaper
AI智能体自主性评估的实践方法 02-19
AI Agent
自主性
评估方法 |
[自动]
[HACKER_NEWS] | 5min | newspaper
AI智能体自主性的实践测量方法 02-19
AI Agent
自主性
评估指标 |
[自动]
[HACKER_NEWS] | 5min | newspaper
AI智能体自主性的实践评估方法 02-19
AI Agent
自主性
评估方法 |
[自动]
[HACKER_NEWS] | 5min | newspaper
AI智能体自主性评估的实践方法与指标 02-19
AI Agent
自主性
评估指标 |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅改用Harness框架即可提升15个大模型编程能力 02-13
LLM
代码生成
Harness |
[自动]
[HACKER_NEWS] | 7min | newspaper
仅更换框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
模型评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅修改框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
框架优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv 实践:在真实环境中评估工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅调整框架一下午提升15个大模型编程能力 02-12
LLM
代码生成
模型评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅调整框架,一下午提升15个大模型编码能力 02-12
LLM
代码生成
Prompt Engineering |
[自动]
[HACKER_NEWS] | 4min | newspaper
仅替换调度框架,一下午提升15个大模型编程能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 5min | newspaper
仅更换调度框架,一下午提升15个大模型代码能力 02-12
LLM
代码生成
调度框架 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-12
OpenEnv
智能体
Agent |
[自动]
[HACKER_NEWS] | 3min | newspaper
GPT-5在法律推理实验中表现优于联邦法官 02-12
GPT-5
法律推理
联邦法官 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent Skills:AI 智能体技能评估框架 02-04
Agent
智能体
评估框架 |
[自动]
[ARXIV] | 5min | school
AgentRx:基于执行轨迹的AI智能体故障诊断 02-04
AgentRx
AI Agent
故障诊断 |
[自动]
[HACKER_NEWS] | 4min | newspaper
构建AI版Wattpad以评估大模型小说创作能力 02-03
LLM
小说创作
模型评估 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Agent Skills:大模型智能体的技能评估框架 02-03
Agent
LLM
评估框架 |
[自动]
[HACKER_NEWS] | 4min | newspaper
AI 基准测试新进展:Game Arena 推进评估方法 02-03
AI 基准测试
Game Arena
模型评估 |
[自动]
[ARXIV] | 4min | school
PaperBanana:面向AI科研人员的学术绘图自动化工具 02-02
PaperBanana
学术绘图
VLM |
[自动]
[ARXIV] | 3min | school
挖掘模型仓库中的隐藏价值 02-01
模型评估
Llama
微调 |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
🚗AgentDrive重磅发布!首个Agent推理开源自驾数据集🔥 01-27
AgentDrive
自动驾驶
Agent AI |
无匹配条目