目录
视觉语言模型
条目:36
2026年三月
10 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 2min | school
统一时空Token评分提升视频VLMs效率 03-20
视频VLMs
Token剪枝
视觉语言模型 |
[自动]
[ARXIV] | 3min | school
Loc3R-VLM语言驱动定位与3D推理视觉模型 03-20
视觉语言模型
三维推理
语言驱动定位 |
[自动]
[ARXIV] | 4min | school
统一时空Token评分提升视频VLM效率 03-19
视频VLM
Token剪枝
计算效率 |
[自动]
[ARXIV] | 3min | school
Loc3R-VLM:基于语言提示的3D定位与推理模型 03-19
视觉语言模型
3D定位
语言提示 |
[自动]
[ARXIV] | 3min | school
AI能否像艺术史学家一样解读视觉语言模型的艺术风格识别机制 03-12
VLM
视觉语言模型
艺术风格 |
[自动]
[ARXIV] | 2min | school
BEACON:遮挡条件下的语言导航可行性预测 03-12
机器人导航
VLM
BEV |
[自动]
[ARXIV] | 2min | school
BEACON:遮挡条件下的语言导航可行性预测 03-11
BEACON
语言导航
VLM |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 03-02
多模态
视觉语言模型
最优传输 |
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 03-01
VLM
视觉语言模型
报告偏差 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 03-01
多模态
SOTAlign
最优传输 |
2026年二月
26 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 02-28
VLM
视觉语言模型
报告偏差 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-28
多模态
视觉语言模型
最优传输 |
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 02-27
VLM
视觉语言模型
报告偏差 |
[自动]
[ARXIV] | 3min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-27
多模态
视觉语言模型
最优传输 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 平台部署开源视觉语言模型 02-25
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock Robotics用视觉语言模型规模化标注物理AI训练数据 02-25
VLM
视觉语言模型
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 设备上部署开源视觉语言模型 02-25
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock Robotics利用视觉-语言模型自动化标注施工视频数据 02-25
VLM
数据标注
自动化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock Robotics利用视觉-语言模型自动化标注施工视频数据 02-25
视觉语言模型
数据标注
自动化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
在 Jetson 平台上部署开源视觉语言模型 02-25
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在Jetson上部署开源视觉语言模型 02-25
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Bedrock Robotics应用视觉语言模型规模化标注物理AI数据 02-25
VLM
视觉语言模型
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 平台上部署开源视觉语言模型 02-24
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock Robotics利用视觉语言模型自动化标注物理AI训练数据 02-24
VLM
视觉语言模型
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 平台上部署开源视觉语言模型 02-24
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock Robotics利用视觉语言模型规模化标注数据赋能物理AI 02-24
VLM
物理AI
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 平台部署开源视觉语言模型 02-24
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock Robotics利用视觉语言模型自动化生成物理AI训练数据 02-24
VLM
视觉语言模型
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 上部署开源视觉语言模型 02-24
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Bedrock Robotics利用视觉语言模型规模化标注施工数据 02-24
VLM
视觉语言模型
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
在 Jetson 设备上部署开源视觉语言模型 02-24
VLM
Jetson
边缘计算 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Bedrock Robotics利用视觉-语言模型规模化标注物理AI训练数据 02-24
VLM
视觉语言模型
数据标注 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Bedrock与AWS合作:利用视觉-语言模型规模化生成物理AI训练数据 02-24
VLM
视觉语言模型
数据标注 |
[自动]
[ARXIV] | 4min | school
视觉-语言-动作对齐:扩展验证比扩展策略学习更有效 02-16
VLA
具身智能
CoVer |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:面向复杂文档理解的多模态OCR模型 02-12
GLM-OCR
多模态
OCR |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:兼顾准确度、速度与通用性的多模态大模型 02-11
GLM-OCR
多模态
OCR |
无匹配条目