目录
数据集
条目:17
2026年二月
9 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
高效自动化翻译基准测试与数据集的流水线 02-26
LLM
多语言模型
数据集 |
[自动]
[ARXIV] | 4min | school
面向大规模视频推理的综合基准测试套件 02-25
视频推理
VBVR
基准测试 |
[自动]
[ARXIV] | 4min | school
面向大规模视频推理的综合基准测试套件 02-24
视频推理
VBVR
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
SWE-bench Verified 数据污染与测度失准分析及替代方案 02-24
SWE-bench
数据污染
代码生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro 02-24
SWE-bench
数据污染
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic 发布 METR 数据集研究 AI Agent 自主性 02-19
Anthropic
METR
AI Agent |
[自动]
[ARXIV] | 3min | school
Data Science and Technology Towards AGI Part I: Tiered 02-11
AGI
数据管理
分层架构 |
[自动]
[HACKER_NEWS] | 4min | newspaper
BioTradingArena:预测生物科技股走势的LLM基准 02-06
LLM
基准测试
金融预测 |
[自动]
[ARXIV] | 4min | school
AutoFigure:自动生成与优化出版级科学插图 02-04
AutoFigure
FigureBench
科学插图 |
2026年一月
8 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
FineInstructions:将合成指令数据扩展至预训练规模 01-31
LLM
指令微调
合成数据 |
[自动]
[ARXIV] | 4min | school
FineInstructions:将合成指令数据扩展至预训练规模 01-30
LLM
预训练
指令微调 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Nemotron-Personas-Brazil:主权AI协同设计数据集 01-29
主权AI
数据集
Nemotron |
[自动]
[ARXIV] | 3min | school
基于相机-IMU融合的鲁棒路面分类数据集与框架 01-29
计算机视觉
多模态融合
IMU |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Alyah ⭐️:阿拉伯语LLM方言鲁棒性评估!🔥 01-28
LLM
阿拉伯语
方言评估 |
[自动]
[ARXIV] | 4min | school
🔍脑电+情感=超强分析!MEG数据解锁情绪新维度 01-27
MEG
情感分析
脑机接口 |
[自动]
[ARXIV] | 5min | school
🚗AgentDrive重磅发布!首个Agent推理开源自驾数据集🔥 01-27
AgentDrive
自动驾驶
Agent AI |
[自动]
[ARXIV] | 5min | school
AgentDrive:首个开放基准!🚗 LLM生成场景驱动Agent智能推理 01-26
AgentDrive
自动驾驶
基准测试 |
无匹配条目