terminal

AI Stack

rss_feed
SYS_STABLE
目录

视觉语言模型

条目:36
2026年三月 10 篇
类型阅读条目
[自动] [ARXIV]
2minschool 统一时空Token评分提升视频VLMs效率
03-20 视频VLMs Token剪枝 视觉语言模型
[自动] [ARXIV]
3minschool Loc3R-VLM语言驱动定位与3D推理视觉模型
03-20 视觉语言模型 三维推理 语言驱动定位
[自动] [ARXIV]
4minschool 统一时空Token评分提升视频VLM效率
03-19 视频VLM Token剪枝 计算效率
[自动] [ARXIV]
3minschool Loc3R-VLM:基于语言提示的3D定位与推理模型
03-19 视觉语言模型 3D定位 语言提示
[自动] [ARXIV]
3minschool AI能否像艺术史学家一样解读视觉语言模型的艺术风格识别机制
03-12 VLM 视觉语言模型 艺术风格
[自动] [ARXIV]
2minschool BEACON:遮挡条件下的语言导航可行性预测
03-12 机器人导航 VLM BEV
[自动] [ARXIV]
2minschool BEACON:遮挡条件下的语言导航可行性预测
03-11 BEACON 语言导航 VLM
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
03-02 多模态 视觉语言模型 最优传输
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
03-01 VLM 视觉语言模型 报告偏差
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
03-01 多模态 SOTAlign 最优传输
2026年二月 26 篇
类型阅读条目
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
02-28 VLM 视觉语言模型 报告偏差
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-28 多模态 视觉语言模型 最优传输
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
02-27 VLM 视觉语言模型 报告偏差
[自动] [ARXIV]
3minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-27 多模态 视觉语言模型 最优传输
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 平台部署开源视觉语言模型
02-25 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
2minmic Bedrock Robotics用视觉语言模型规模化标注物理AI训练数据
02-25 VLM 视觉语言模型 数据标注
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 设备上部署开源视觉语言模型
02-25 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
2minmic Bedrock Robotics利用视觉-语言模型自动化标注施工视频数据
02-25 VLM 数据标注 自动化
[自动] [BLOGS_PODCASTS]
2minmic Bedrock Robotics利用视觉-语言模型自动化标注施工视频数据
02-25 视觉语言模型 数据标注 自动化
[自动] [BLOGS_PODCASTS]
2minmic 在 Jetson 平台上部署开源视觉语言模型
02-25 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
3minmic 在Jetson上部署开源视觉语言模型
02-25 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
3minmic Bedrock Robotics应用视觉语言模型规模化标注物理AI数据
02-25 VLM 视觉语言模型 数据标注
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 平台上部署开源视觉语言模型
02-24 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
2minmic Bedrock Robotics利用视觉语言模型自动化标注物理AI训练数据
02-24 VLM 视觉语言模型 数据标注
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 平台上部署开源视觉语言模型
02-24 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
2minmic Bedrock Robotics利用视觉语言模型规模化标注数据赋能物理AI
02-24 VLM 物理AI 数据标注
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 平台部署开源视觉语言模型
02-24 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
2minmic Bedrock Robotics利用视觉语言模型自动化生成物理AI训练数据
02-24 VLM 视觉语言模型 数据标注
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 上部署开源视觉语言模型
02-24 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
3minmic Bedrock Robotics利用视觉语言模型规模化标注施工数据
02-24 VLM 视觉语言模型 数据标注
[自动] [BLOGS_PODCASTS]
3minmic 在 Jetson 设备上部署开源视觉语言模型
02-24 VLM Jetson 边缘计算
[自动] [BLOGS_PODCASTS]
3minmic Bedrock Robotics利用视觉-语言模型规模化标注物理AI训练数据
02-24 VLM 视觉语言模型 数据标注
[自动] [BLOGS_PODCASTS]
2minmic Bedrock与AWS合作:利用视觉-语言模型规模化生成物理AI训练数据
02-24 VLM 视觉语言模型 数据标注
[自动] [ARXIV]
4minschool 视觉-语言-动作对齐:扩展验证比扩展策略学习更有效
02-16 VLA 具身智能 CoVer
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:面向复杂文档理解的多模态OCR模型
02-12 GLM-OCR 多模态 OCR
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:兼顾准确度、速度与通用性的多模态大模型
02-11 GLM-OCR 多模态 OCR