AI Stack 探索 AI 技术前沿，分享深度思考与实践

条目: 1987
延迟: —
最新内容: 2026-07-15 14:00; 非站点部署时间
当前时间: --:--:--

首页归档搜索标签 AI史塔克关于

TAGS / TERM

视觉语言模型

共 14 篇

视觉语言动作模型的免标定自由视角方法 2026-07-07 · ARXIV
VLMs对描述内容的视觉感知机制研究 2026-06-15 · ARXIV
可恢复视觉令牌路由：重新路由而非删除 2026-06-11 · ARXIV
ChartNet数据集提升视觉语言模型图表解读能力 2026-06-03 · BLOGS_PODCASTS
AlphaGRPO：分解式可验证奖励赋能多模态生成自我反思 2026-05-13 · ARXIV
统一时空Token评分提升视频VLM效率 2026-03-19 · ARXIV
Loc3R-VLM语言驱动定位与3D推理视觉模型 2026-03-19 · ARXIV
AI能否像艺术史学家一样解读视觉语言模型的艺术风格识别机制 2026-03-12 · ARXIV
BEACON：遮挡条件下的语言导航可行性预测 2026-03-11 · ARXIV
规模难以克服语用学：报告偏差对视觉语言推理的影响 2026-02-27 · ARXIV
SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 2026-02-27 · ARXIV
在Jetson上部署开源视觉语言模型 2026-02-24 · BLOGS_PODCASTS
Bedrock Robotics用视觉语言模型规模化标注物理AI训练数据 2026-02-24 · BLOGS_PODCASTS
GLM-OCR：面向复杂文档理解的多模态OCR模型 2026-02-11 · HACKER_NEWS