terminal

AI Stack

rss_feed
SYS_STABLE
目录

数据集

条目:17
2026年二月 9 篇
类型阅读条目
[自动] [ARXIV]
4minschool 高效自动化翻译基准测试与数据集的流水线
02-26 LLM 多语言模型 数据集
[自动] [ARXIV]
4minschool 面向大规模视频推理的综合基准测试套件
02-25 视频推理 VBVR 基准测试
[自动] [ARXIV]
4minschool 面向大规模视频推理的综合基准测试套件
02-24 视频推理 VBVR 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据污染与测度失准分析及替代方案
02-24 SWE-bench 数据污染 代码生成
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 发布 METR 数据集研究 AI Agent 自主性
02-19 Anthropic METR AI Agent
[自动] [ARXIV]
3minschool Data Science and Technology Towards AGI Part I: Tiered
02-11 AGI 数据管理 分层架构
[自动] [HACKER_NEWS]
4minnewspaper BioTradingArena:预测生物科技股走势的LLM基准
02-06 LLM 基准测试 金融预测
[自动] [ARXIV]
4minschool AutoFigure:自动生成与优化出版级科学插图
02-04 AutoFigure FigureBench 科学插图
2026年一月 8 篇
类型阅读条目
[自动] [ARXIV]
3minschool FineInstructions:将合成指令数据扩展至预训练规模
01-31 LLM 指令微调 合成数据
[自动] [ARXIV]
4minschool FineInstructions:将合成指令数据扩展至预训练规模
01-30 LLM 预训练 指令微调
[自动] [BLOGS_PODCASTS]
2minmic Nemotron-Personas-Brazil:主权AI协同设计数据集
01-29 主权AI 数据集 Nemotron
[自动] [ARXIV]
3minschool 基于相机-IMU融合的鲁棒路面分类数据集与框架
01-29 计算机视觉 多模态融合 IMU
[自动] [BLOGS_PODCASTS]
2minmic Alyah ⭐️:阿拉伯语LLM方言鲁棒性评估!🔥
01-28 LLM 阿拉伯语 方言评估
[自动] [ARXIV]
4minschool 🔍脑电+情感=超强分析!MEG数据解锁情绪新维度
01-27 MEG 情感分析 脑机接口
[自动] [ARXIV]
5minschool 🚗AgentDrive重磅发布!首个Agent推理开源自驾数据集🔥
01-27 AgentDrive 自动驾驶 Agent AI
[自动] [ARXIV]
5minschool AgentDrive:首个开放基准!🚗 LLM生成场景驱动Agent智能推理
01-26 AgentDrive 自动驾驶 基准测试