TAGS / TERM

多模态

共 306 篇

UniClawBench：主动式智能体真实任务基准 2026-07-11 · ARXIV
UniClawBench：面向真实世界任务的主动代理通用基准 2026-07-10 · ARXIV
ELSA3D基于弹性语义锚定的3D统一理解与生成 2026-07-08 · ARXIV
OpenAI发布GPT-5.6分层版本，限制合作伙伴访问 2026-06-27 · BLOGS_PODCASTS
OpenAI推理模型辅助医师诊断儿童罕见遗传病 2026-06-18 · BLOGS_PODCASTS
Amazon Bedrock上线Gemma 4系列模型 2026-06-15 · BLOGS_PODCASTS
NVIDIA Cosmos 3发布：首个物理AI开源全模态模型 2026-06-01 · BLOGS_PODCASTS
Anthropic完成965亿美元H轮融资并发布Opus 4.8 2026-05-29 · BLOGS_PODCASTS
ImageGen的AGI之路：反思GPT-Image-2热潮 2026-04-28 · BLOGS_PODCASTS
视频时间流的快慢视觉学习 2026-04-24 · ARXIV
Cursor与xAI签百亿美元合同获六百亿美元收购权 2026-04-22 · BLOGS_PODCASTS
ChatGPT图像功能更新至2.0版本 2026-04-22 · HACKER_NEWS
MathNet：全球多模态数学推理与检索基准 2026-04-21 · ARXIV
ChatGPT图像生成能力升级至2.0版本 2026-04-21 · HACKER_NEWS
基于层级式多模态架构的网页生成智能体 2026-04-17 · ARXIV
CowAgent：开源多平台AI助理框架，支持十余种模型 2026-04-15 · GITHUB_TRENDING
Google Gemma 4小型多模态开源模型性能大幅提升 2026-04-03 · BLOGS_PODCASTS
使用RAG将文本图像转化为视频的方案 2026-03-20 · BLOGS_PODCASTS
Loc3R-VLM语言驱动定位与3D推理视觉模型 2026-03-20 · ARXIV
Loc3R-VLM：基于语言提示的3D定位与推理模型 2026-03-19 · ARXIV
Introducing GPT-5.4 mini and nano 2026-03-18 · BLOGS_PODCASTS
OpenAI发布GPT-4o mini与nano：更小更快，优化编码与多模态推理 2026-03-18 · BLOGS_PODCASTS
OpenAI发布GPT-4o mini与nano：更小更快，优化代码与多模态 2026-03-17 · BLOGS_PODCASTS
强化学习激发过程推理能力提升机器人操控性能 2026-03-17 · ARXIV
OpenAI发布GPT-5.4 mini与nano：优化编程与多模态推理 2026-03-17 · BLOGS_PODCASTS
AC-Foley：参考音频引导的声学迁移视频生成音频模型 2026-03-17 · ARXIV
RS-WorldModel：遥感理解与未来预测统一模型 2026-03-17 · ARXIV
Visual-ERM：面向视觉等价性的奖励建模 2026-03-17 · ARXIV
Visual-ERM：视觉等效性奖励建模方法 2026-03-16 · ARXIV
Multimodal embeddings at scale: AI data lake for media 2026-03-16 · BLOGS_PODCASTS
利用 Amazon Nova 构建多模态视频语义搜索系统 2026-03-16 · BLOGS_PODCASTS
SciMDR：科学多模态文档推理基准测试与进展 2026-03-16 · ARXIV
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning 2026-03-16 · ARXIV
构建多模态视频搜索系统：基于Amazon Nova与OpenSearch 2026-03-15 · BLOGS_PODCASTS
SciMDR：科学多模态文档推理基准与进展 2026-03-15 · ARXIV
EndoCoT：扩散模型内生思维链推理扩展方法 2026-03-15 · ARXIV
Kirara-AI：多模态聊天机器人框架，支持多平台接入与工作流 2026-03-15 · GITHUB_TRENDING
构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统 2026-03-14 · BLOGS_PODCASTS
SciMDR：科学多模态文档推理基准测试与进展 2026-03-14 · ARXIV
kirara-ai：支持多平台接入的多模态AI聊天机器人 2026-03-14 · GITHUB_TRENDING
EndoCoT：扩散模型内生思维链推理扩展方法 2026-03-14 · ARXIV
构建多模态视频搜索系统：基于Amazon Nova与OpenSearch 2026-03-14 · BLOGS_PODCASTS
基于大模型的AI助理CowAgent：支持主动思考与多平台接入 2026-03-14 · GITHUB_TRENDING
Kirara-AI：多模态聊天机器人框架，支持多平台接入与主流模型 2026-03-14 · GITHUB_TRENDING
基于Amazon Nova与OpenSearch构建可扩展多模态视频语义搜索系统 2026-03-14 · BLOGS_PODCASTS
基于Amazon Nova与OpenSearch构建可扩展多模态视频搜索系统 2026-03-13 · BLOGS_PODCASTS
SciMDR：科学多模态文档推理基准与进展 2026-03-13 · ARXIV
kirara-ai：多模态AI聊天机器人，支持多平台接入与主流大模型 2026-03-13 · GITHUB_TRENDING
EndoCoT：扩散模型内生思维链推理扩展方法 2026-03-13 · ARXIV
ChatGPT-on-WeChat：接入多平台的大模型AI助理框架 2026-03-13 · GITHUB_TRENDING