terminal

AI Stack

rss_feed
SYS_STABLE
目录

数据污染

条目:16
2026年三月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
03-01 模型蒸馏 合成数据 SWE-Bench
2026年二月 13 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-28 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [BLOGS_PODCASTS]
2minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
2minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
4minmic Anthropic 模型蒸馏与 SWE-Bench 失效机制分析
02-27 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-26 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
4minmic SWE-bench Verified 数据泄露与缺陷分析:为何应转向 SWE-bench Pro
02-24 SWE-bench 数据泄露 数据污染
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 存在数据污染与评估偏差,建议改用 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据污染与测度失准分析及替代方案
02-24 SWE-bench 数据污染 代码生成
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 存在数据污染与缺陷,建议迁移至 SWE-bench Pro
02-24 SWE-bench 数据污染 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄露与测试缺陷分析:为何应迁移至 SWE-bench Pro
02-24 SWE-bench 数据泄露 基准测试
[自动] [BLOGS_PODCASTS]
3minmic SWE-bench Verified 数据泄漏与测试缺陷分析:为何推荐改用 SWE-bench Pro
02-23 SWE-bench 数据泄漏 基准测试
[自动] [BLOGS_PODCASTS]
2minmic SWE-bench Verified 数据污染严重,推荐使用 SWE-bench Pro
02-23 SWE-bench 数据污染 基准测试
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
4minschool 机器翻译评估中的跨向污染问题研究
01-30 机器翻译 数据污染 FLORES-200
[自动] [ARXIV]
3minschool 机器翻译评估中的跨向污染问题研究
01-29 机器翻译 数据污染 FLORES