terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

模型评估

共 207 篇

新审计技术可检测生成式AI恶意能力 2026-07-13 · BLOGS_PODCASTS
语言模型价值轴：编码正确性判断能力 2026-06-16 · ARXIV
olmo-eval：模型开发循环评估工作台 2026-06-12 · BLOGS_PODCASTS
大语言模型掷骰子可靠性研究 2026-06-09 · ARXIV
VendingBench作者谈Claude模型评估体系构建 2026-06-04 · BLOGS_PODCASTS
从稳定性与可塑性视角评估参数高效微调：PEFT-Arena平台 2026-05-28 · ARXIV
基于MLLM的多模态评估器验证图像文本一致性 2026-05-20 · BLOGS_PODCASTS
Amazon Nova 2 Lite内容审核提示设计方法 2026-05-18 · BLOGS_PODCASTS
新指标识别大型语言模型过度自信问题 2026-03-20 · BLOGS_PODCASTS
新指标识别AI模型过度自信降低幻觉风险 2026-03-19 · BLOGS_PODCASTS
Mistral AI 发布 Forge：用于微调和测试的轻量级模型 2026-03-18 · HACKER_NEWS
反事实解释指标与用户感知的一致性研究 2026-03-18 · ARXIV
智能体AI中的语义不变性研究 2026-03-17 · ARXIV
LLM Architecture Gallery 2026-03-16 · HACKER_NEWS
LLM Architecture Gallery 2026-03-16 · HACKER_NEWS
探究推理模型作为裁判在非可验证LLM后训练中的作用 2026-03-16 · ARXIV
探究推理模型作为裁判在非可验证LLM后训练中的表现 2026-03-15 · ARXIV
OpenAI研究员探讨提升大语言模型期望的高回报活动 2026-03-15 · BLOGS_PODCASTS
探究非可验证LLM后训练中的推理模型评判机制 2026-03-14 · ARXIV
探究推理LLM作为非可验证后训练评估器的有效性 2026-03-13 · ARXIV
LLM 模型合并率未见提升，技术瓶颈待解 2026-03-13 · HACKER_NEWS
LLM 模型性能提升停滞的质疑与分析 2026-03-12 · HACKER_NEWS
SWE-bench通过率高的PR往往无法合并 2026-03-12 · HACKER_NEWS
生成式模型的实用价值评估与适用场景分析 2026-03-12 · HACKER_NEWS
CREATE基准：测试大语言模型的联想创造力 2026-03-12 · ARXIV
推理机制如何提升大模型的诚实度 2026-03-11 · ARXIV
SWE-bench基准测试通过率与实际PR合并率存在偏差 2026-03-11 · HACKER_NEWS
Impermanent：时间序列预测时序泛化实时基准 2026-03-11 · ARXIV
提升AI模型解释能力以增强安全关键领域可信度 2026-03-10 · BLOGS_PODCASTS
Impermanent：时间序列预测时序泛化实时基准 2026-03-10 · ARXIV
提升AI模型在医疗与自动驾驶等场景的可解释性 2026-03-10 · BLOGS_PODCASTS
新方法提升AI模型可解释性助力医疗与自动驾驶可信度评估 2026-03-10 · BLOGS_PODCASTS
OpenAI收购AI安全平台Promptfoo以修复系统漏洞 2026-03-10 · BLOGS_PODCASTS
表格基础模型分布回归：基于适当评分规则的预测评估 2026-03-10 · ARXIV
Balyasny 基于 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 2026-03-10 · BLOGS_PODCASTS
Balyasny构建AI研究引擎革新投资分析 2026-03-09 · BLOGS_PODCASTS
Balyasny如何构建AI投资研究引擎与智能体工作流 2026-03-09 · BLOGS_PODCASTS
Balyasny 如何利用 GPT‑5.4 与智能体工作流构建 AI 投研引擎 2026-03-09 · BLOGS_PODCASTS
Balyasny 融合 GPT-5.4 与代理工作流构建 AI 投研引擎 2026-03-09 · BLOGS_PODCASTS
OpenAI推出CoT-Control：强化推理模型思维链的可监控性 2026-03-09 · BLOGS_PODCASTS
Balyasny 构建 AI 投研引擎：基于 GPT-5.4 与 Agent 工作流 2026-03-09 · BLOGS_PODCASTS
利用LLM参数化知识实现无检索的事实核查 2026-03-09 · ARXIV
迈向偏差可控的LLM评判器：基于有界评估的无偏验证 2026-03-08 · ARXIV
Balyasny 融合 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 2026-03-08 · BLOGS_PODCASTS
审查版大模型作为秘密知识提取的自然测试床 2026-03-07 · ARXIV
奇异贝叶斯模型中的热力学响应函数研究 2026-03-07 · ARXIV
利用LLM参数化知识实现无检索的事实核查 2026-03-07 · ARXIV
Balyasny 基于 GPT-5.4 与 Agent 工作流构建 AI 投研引擎 2026-03-07 · BLOGS_PODCASTS
Sarvam 105B：首个具备竞争力的印度开源大模型 2026-03-07 · HACKER_NEWS
Balyasny如何构建AI投资研究引擎 2026-03-07 · BLOGS_PODCASTS

1 2 3 5 下一页