LINK_STATUS: STABLE // ENCODING: UTF-8

SECTOR_ID: AI_STACK // MODE: LIST

terminal

AI Stack

时间 --:--:--

安全连接 rss_feed

SYS_STABLE

目录

数据集

条目：17

2026年二月 9 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 高效自动化翻译基准测试与数据集的流水线 02-26 LLM 多语言模型数据集
[自动] [ARXIV]	4min	school 面向大规模视频推理的综合基准测试套件 02-25 视频推理 VBVR 基准测试
[自动] [ARXIV]	4min	school 面向大规模视频推理的综合基准测试套件 02-24 视频推理 VBVR 基准测试
[自动] [BLOGS_PODCASTS]	3min	mic SWE-bench Verified 数据污染与测度失准分析及替代方案 02-24 SWE-bench 数据污染代码生成
[自动] [BLOGS_PODCASTS]	2min	mic SWE-bench Verified 存在数据污染与缺陷，建议迁移至 SWE-bench Pro 02-24 SWE-bench 数据污染基准测试
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic 发布 METR 数据集研究 AI Agent 自主性 02-19 Anthropic METR AI Agent
[自动] [ARXIV]	3min	school Data Science and Technology Towards AGI Part I: Tiered 02-11 AGI 数据管理分层架构
[自动] [HACKER_NEWS]	4min	newspaper BioTradingArena：预测生物科技股走势的LLM基准 02-06 LLM 基准测试金融预测
[自动] [ARXIV]	4min	school AutoFigure：自动生成与优化出版级科学插图 02-04 AutoFigure FigureBench 科学插图

2026年一月 8 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school FineInstructions：将合成指令数据扩展至预训练规模 01-31 LLM 指令微调合成数据
[自动] [ARXIV]	4min	school FineInstructions：将合成指令数据扩展至预训练规模 01-30 LLM 预训练指令微调
[自动] [BLOGS_PODCASTS]	2min	mic Nemotron-Personas-Brazil：主权AI协同设计数据集 01-29 主权AI 数据集 Nemotron
[自动] [ARXIV]	3min	school 基于相机-IMU融合的鲁棒路面分类数据集与框架 01-29 计算机视觉多模态融合 IMU
[自动] [BLOGS_PODCASTS]	2min	mic Alyah ⭐️：阿拉伯语LLM方言鲁棒性评估！🔥 01-28 LLM 阿拉伯语方言评估
[自动] [ARXIV]	4min	school 🔍脑电+情感=超强分析！MEG数据解锁情绪新维度 01-27 MEG 情感分析脑机接口
[自动] [ARXIV]	5min	school 🚗AgentDrive重磅发布！首个Agent推理开源自驾数据集🔥 01-27 AgentDrive 自动驾驶 Agent AI
[自动] [ARXIV]	5min	school AgentDrive：首个开放基准！🚗 LLM生成场景驱动Agent智能推理 01-26 AgentDrive 自动驾驶基准测试