terminal

AI Stack

rss_feed
SYS_STABLE
目录

多模态

条目:291
2026年四月 2 篇
类型阅读条目
[自动] [GITHUB_TRENDING]
4minhub CowAgent:开源多平台AI助理框架,支持十余种模型
04-15 AI助理 多平台接入 多模型支持
[自动] [BLOGS_PODCASTS]
1minmic Google Gemma 4小型多模态开源模型性能大幅提升
04-03 Gemma 4 多模态 Google
2026年三月 101 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic 使用RAG将文本图像转化为视频的方案
03-20 AI视频 VRAG AmazonBedrock
[自动] [ARXIV]
3minschool Loc3R-VLM语言驱动定位与3D推理视觉模型
03-20 视觉语言模型 三维推理 语言驱动定位
[自动] [ARXIV]
3minschool Loc3R-VLM:基于语言提示的3D定位与推理模型
03-19 视觉语言模型 3D定位 语言提示
[自动] [BLOGS_PODCASTS]
2minmic Introducing GPT-5.4 mini and nano
03-18 GPT-5.4 OpenAI 小模型
[自动] [BLOGS_PODCASTS]
3minmic OpenAI发布GPT-4o mini与nano:更小更快,优化编码与多模态推理
03-18 OpenAI GPT-4o 模型发布
[自动] [BLOGS_PODCASTS]
3minmic OpenAI发布GPT-4o mini与nano:更小更快,优化代码与多模态
03-17 OpenAI GPT-4o 模型发布
[自动] [ARXIV]
3minschool 强化学习激发过程推理能力提升机器人操控性能
03-17 机器人操控 强化学习 过程推理
[自动] [BLOGS_PODCASTS]
3minmic OpenAI发布GPT-5.4 mini与nano:优化编程与多模态推理
03-17 OpenAI GPT-5.4 模型发布
[自动] [ARXIV]
3minschool AC-Foley:参考音频引导的声学迁移视频生成音频模型
03-17 多模态 V2A 视频生成音频
[自动] [ARXIV]
2minschool RS-WorldModel:遥感理解与未来预测统一模型
03-17 遥感 世界模型 时空预测
[自动] [ARXIV]
3minschool Visual-ERM:面向视觉等价性的奖励建模
03-17 Visual-ERM 视觉奖励模型 LVLM
[自动] [ARXIV]
3minschool Visual-ERM:视觉等效性奖励建模方法
03-16 Visual-ERM 奖励模型 RLHF
[自动] [BLOGS_PODCASTS]
3minmic Multimodal embeddings at scale: AI data lake for media
03-16 多模态 向量搜索 视频检索
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Nova 构建多模态视频语义搜索系统
03-16 Amazon Nova 多模态 语义搜索
[自动] [ARXIV]
3minschool SciMDR:科学多模态文档推理基准测试与进展
03-16 SciMDR 多模态 文档推理
[自动] [ARXIV]
3minschool EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning
03-16 EndoCoT 扩散模型 DiT
[自动] [BLOGS_PODCASTS]
3minmic 构建多模态视频搜索系统:基于Amazon Nova与OpenSearch
03-15 多模态 视频搜索 向量检索
[自动] [ARXIV]
4minschool SciMDR:科学多模态文档推理基准与进展
03-15 SciMDR 多模态 文档推理
[自动] [ARXIV]
4minschool EndoCoT:扩散模型内生思维链推理扩展方法
03-15 扩散模型 EndoCoT 思维链
[自动] [GITHUB_TRENDING]
2minhub Kirara-AI:多模态聊天机器人框架,支持多平台接入与工作流
03-15 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
3minmic 构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统
03-14 多模态 向量检索 语义搜索
[自动] [ARXIV]
4minschool SciMDR:科学多模态文档推理基准测试与进展
03-14 SciMDR 多模态 文档推理
[自动] [GITHUB_TRENDING]
2minhub kirara-ai:支持多平台接入的多模态AI聊天机器人
03-14 Chatbot LLM Python
[自动] [ARXIV]
4minschool EndoCoT:扩散模型内生思维链推理扩展方法
03-14 扩散模型 EndoCoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic 构建多模态视频搜索系统:基于Amazon Nova与OpenSearch
03-14 多模态 视频搜索 语义搜索
[自动] [GITHUB_TRENDING]
2minhub 基于大模型的AI助理CowAgent:支持主动思考与多平台接入
03-14 LLM Agent Python
[自动] [GITHUB_TRENDING]
3minhub Kirara-AI:多模态聊天机器人框架,支持多平台接入与主流模型
03-14 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
2minmic 基于Amazon Nova与OpenSearch构建可扩展多模态视频语义搜索系统
03-14 多模态 向量搜索 语义搜索
[自动] [BLOGS_PODCASTS]
3minmic 基于Amazon Nova与OpenSearch构建可扩展多模态视频搜索系统
03-13 多模态 视频搜索 语义搜索
[自动] [ARXIV]
3minschool SciMDR:科学多模态文档推理基准与进展
03-13 SciMDR 多模态 文档推理
[自动] [GITHUB_TRENDING]
2minhub kirara-ai:多模态AI聊天机器人,支持多平台接入与主流大模型
03-13 聊天机器人 多模态 LLM
[自动] [ARXIV]
3minschool EndoCoT:扩散模型内生思维链推理扩展方法
03-13 扩散模型 EndoCoT 思维链
[自动] [GITHUB_TRENDING]
1minhub ChatGPT-on-WeChat:接入多平台的大模型AI助理框架
03-13 ChatGPT AI助理 Agent
[自动] [BLOGS_PODCASTS]
3minmic 构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统
03-13 多模态 语义搜索 向量检索
[自动] [BLOGS_PODCASTS]
2minmic 构建多模态视频搜索系统:利用 Amazon Nova 和 OpenSearch 实现语义检索
03-13 多模态 视频搜索 语义检索
[自动] [BLOGS_PODCASTS]
2minmic Multimodal embeddings at scale: AI data lake for media
03-13 多模态 向量搜索 语义检索
[自动] [BLOGS_PODCASTS]
2minmic 基于Amazon Nova与OpenSearch构建可扩展多模态视频搜索系统
03-13 多模态 向量搜索 语义搜索
[自动] [ARXIV]
3minschool V2M-Zero:零样本时间对齐视频配乐生成模型
03-13 V2M-Zero 视频配乐 零样本学习
[自动] [HACKER_NEWS]
1minnewspaper 基于文本提示检测卫星影像中任意目标
03-12 遥感 计算机视觉 目标检测
[自动] [BLOGS_PODCASTS]
3minmic 利用Amazon Nova构建多模态视频语义搜索系统
03-12 多模态 向量搜索 语义搜索
[自动] [BLOGS_PODCASTS]
3minmic 构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统
03-12 多模态 语义检索 向量搜索
[自动] [ARXIV]
3minschool V2M-Zero:零样本时序对齐视频配乐生成
03-12 V2M-Zero 视频配乐 零样本学习
[自动] [ARXIV]
3minschool AI能否像艺术史学家一样解读视觉语言模型的艺术风格识别机制
03-12 VLM 视觉语言模型 艺术风格
[自动] [ARXIV]
3minschool 从语义到像素:用于分层视觉理解的粗到细掩码自编码器
03-12 计算机视觉 自监督学习 掩码自编码器
[自动] [HACKER_NEWS]
1minnewspaper 基于文本提示的卫星影像目标检测
03-11 目标检测 卫星影像 多模态
[自动] [HACKER_NEWS]
2minnewspaper TADA:通过文本-声学同步实现快速可靠的语音生成
03-11 TADA 语音生成 TTS
[自动] [HACKER_NEWS]
1minnewspaper TADA:通过文本-声学同步实现快速可靠的语音生成
03-11 TADA 语音生成 TTS
[自动] [HACKER_NEWS]
1minnewspaper TADA:通过文本-声学同步实现快速可靠的语音生成
03-11 TADA 语音生成 TTS
[自动] [GITHUB_TRENDING]
2minhub CowAgent:支持多平台接入与多模态交互的自主任务规划 AI 助理
03-11 LLM Agent Python
[自动] [BLOGS_PODCASTS]
2minmic Granite 4.0 10亿参数多模态语音模型:紧凑高效,适配边缘计算
03-11 Granite 4.0 语音模型 多模态
[自动] [GITHUB_TRENDING]
1minhub CowAgent:主动思考与任务规划的AI助理,支持多平台接入
03-10 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic Granite 4.0 10亿参数多模态语音模型:紧凑高效,适配边缘端
03-10 Granite 4.0 语音模型 多模态
[自动] [ARXIV]
3minschool MM-TS:面向长尾数据对比学习的多模态温控与边界调度
03-10 对比学习 多模态 长尾分布
[自动] [ARXIV]
1minschool BEVLM:将LLM语义知识蒸馏至鸟瞰图表示
03-10 BEVLM 自动驾驶 LLM
[自动] [ARXIV]
4minschool BEVLM:将LLM语义知识蒸馏至鸟瞰图表征
03-09 BEVLM 自动驾驶 LLM
[自动] [BLOGS_PODCASTS]
2minmic 谷歌技术专家解析:AI如何理解视觉搜索
03-09 视觉搜索 计算机视觉 CNN
[自动] [BLOGS_PODCASTS]
2minmic Granite 4.0 10亿参数多模态语音模型:紧凑高效,支持边缘部署
03-09 Granite 4.0 语音模型 多模态
[自动] [BLOGS_PODCASTS]
2minmic AI技术解析:视觉搜索如何理解图像内容
03-09 计算机视觉 图像识别 视觉搜索
[自动] [BLOGS_PODCASTS]
2minmic OpenAI发布GPT-5.4:面向专业工作,支持百万token上下文
03-09 OpenAI GPT-5.4 LLM
[自动] [BLOGS_PODCASTS]
2minmic AI 视觉搜索技术解析:如何理解图像内容
03-09 计算机视觉 深度学习 神经网络
[自动] [BLOGS_PODCASTS]
2minmic AI如何理解视觉搜索:技术原理解析
03-09 计算机视觉 多模态 深度学习
[自动] [BLOGS_PODCASTS]
2minmic AI技术解析:计算机视觉如何理解图像搜索
03-09 计算机视觉 图像搜索 多模态
[自动] [BLOGS_PODCASTS]
2minmic AI如何理解视觉搜索:技术原理解析
03-08 视觉搜索 计算机视觉 图像识别
[自动] [HACKER_NEWS]
1minnewspaper Phi-4多模态推理模型训练经验与技术解析
03-08 Phi-4 多模态 推理模型
[自动] [HACKER_NEWS]
1minnewspaper Phi-4多模态推理模型的训练经验与技术解析
03-08 Phi-4 多模态 推理模型
[自动] [BLOGS_PODCASTS]
2minmic AI如何理解视觉搜索背后的技术原理
03-07 视觉搜索 多模态 嵌入
[自动] [BLOGS_PODCASTS]
2minmic AI视觉搜索技术解析:如何理解图像内容
03-07 计算机视觉 图像识别 视觉搜索
[自动] [BLOGS_PODCASTS]
2minmic 谷歌二月发布Gemini 3.1 Pro与Nano Banana 2
03-07 Google Gemini 1.5 Pro Gemini Nano
[自动] [BLOGS_PODCASTS]
2minmic AI如何理解视觉搜索:技术原理解析
03-06 视觉搜索 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic AI如何理解视觉搜索:Ask a Techspert解析
03-06 视觉搜索 多模态 计算机视觉
[自动] [HACKER_NEWS]
1minnewspaper OpenAI发布GPT-5.4模型升级推理与多模态能力
03-06 OpenAI GPT-5.4 多模态
[自动] [BLOGS_PODCASTS]
3minmic AI技术解析:计算机视觉如何理解图像搜索
03-06 计算机视觉 多模态 生成式 AI
[自动] [ARXIV]
3minschool TaxonRL:基于中间奖励强化学习的可解释细粒度视觉推理
03-06 TaxonRL 强化学习 细粒度分类
[自动] [BLOGS_PODCASTS]
2minmic Ask a Techspert:AI如何理解视觉搜索
03-06 计算机视觉 视觉搜索 深度学习
[自动] [ARXIV]
3minschool TaxonRL:基于中间奖励的可解释细粒度视觉推理
03-05 TaxonRL 强化学习 细粒度视觉推理
[自动] [JUEJIN]
2minsticky_note_2 LangChain 实现图片 OCR 与多模态 RAG 数据读取
03-05 LangChain RAG OCR
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Nova 基础模型增强联络中心分析能力
03-05 Amazon Nova 联络中心 呼叫分析
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:技术规格与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解
03-04 OpenAI GPT-5.3 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [GITHUB_TRENDING]
2minhub CowAgent:基于大模型的主动思考型 AI 助理,支持接入多平台与多模型
03-04 LLM Agent Python
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [ARXIV]
3minschool 自适应置信度正则化用于多模态失效检测
03-04 多模态 失效检测 置信度
[自动] [ARXIV]
3minschool 自适应置信度正则化用于多模态失效检测
03-03 多模态 失效检测 自动驾驶
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-03 GPT-5.3 OpenAI 系统卡
[自动] [GITHUB_TRENDING]
2minhub ChatGPT-on-WeChat:接入多平台与大模型的多模态AI助理框架
03-03 ChatGPT-on-WeChat CowAgent Python
[自动] [ARXIV]
3minschool 基于大规模真实手写数学数据评估AI阅卷性能
03-03 AI阅卷 手写识别 OCR
[自动] [ARXIV]
4minschool MC-Search:基于结构化长推理链的多模态智能体搜索评估与增强
03-03 多模态 MLLM 智能体
[自动] [ARXIV]
4minschool 模式寻优与均值寻优结合实现快速长视频生成
03-03 视频生成 扩散模型 Transformer
[自动] [BLOGS_PODCASTS]
3minmic Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览
03-02 Gemini 图像生成 SOTA
[自动] [BLOGS_PODCASTS]
2minmic Gemini 2.0 Flash 登场:超越 GPT-4o,成新 SOTA 图像生成模型
03-02 Gemini Google SOTA
[自动] [GITHUB_TRENDING]
2minhub CowAgent:支持多平台接入与多模型的主动思考型 AI 助理
03-02 LLM Agent Python
[自动] [ARXIV]
3minschool 规模无法克服语用学:报告偏见对视觉语言推理的影响
03-02 VLM 多模态 报告偏见
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
03-02 多模态 视觉语言模型 最优传输
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
03-01 VLM 视觉语言模型 报告偏差
[自动] [GITHUB_TRENDING]
2minhub 基于大模型的AI助理CowAgent:多平台接入与多模型处理
03-01 LLM Agent Python
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
03-01 多模态 SOTAlign 最优传输
[自动] [BLOGS_PODCASTS]
3minmic Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览
03-01 Gemini 图像生成 SOTA
[自动] [HACKER_NEWS]
1minnewspaper 面向智能体的音频工具包
03-01 Agent Audio Toolkit
[自动] [BLOGS_PODCASTS]
3minmic Gemini 2.5 Pro与Nano Banana 2:SOTA文生图模型与图像预览
03-01 Gemini Google 文生图
[自动] [GITHUB_TRENDING]
1minhub ChatGPT-on-wechat:支持多平台接入的AI助理框架
03-01 ChatGPT-on-wechat LLM AI助理
2026年二月 158 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic 首个 Gemini 3.1 模型 Nano Banana 2 预览:SOTA 图像生成
02-28 Gemini Nano Banana 2 图像生成
[自动] [GITHUB_TRENDING]
1minhub zhayujie/chatgpt-on-wechat:接入多平台与模型的多模态AI助手框架
02-28 ChatGPT 微信机器人 多模态
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-28 多模态 视觉语言模型 最优传输
[自动] [ARXIV]
3minschool SeeThrough3D:文本生成图像中的遮挡感知三维控制
02-28 SeeThrough3D 文本生成图像 3D控制
[自动] [JUEJIN]
2minsticky_note_2 EverMemOS:开源Agent长时记忆系统,LoCoMo推理准确率93%
02-28 Agent 长时记忆 EverMemOS
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3.1 Flash Image Preview 登场:全新 SOTA 图像生成模型
02-28 Gemini 3.1 Nano Banana 2 图像生成
[自动] [BLOGS_PODCASTS]
2minmic 使用 Nano Banana 2 构建图像生成与编辑应用
02-28 图像生成 图像编辑 Nano Banana 2
[自动] [ARXIV]
3minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
02-27 VLM 视觉语言模型 报告偏差
[自动] [ARXIV]
3minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-27 多模态 视觉语言模型 最优传输
[自动] [BLOGS_PODCASTS]
4minmic Gemini 2.0 Flash 登场:成新一代 SOTA 图像生成模型
02-27 Gemini Google 图像生成
[自动] [GITHUB_TRENDING]
1minhub CowAgent:基于大模型的自主思考与任务规划 AI 助理
02-27 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic 使用 Nano Banana 2 构建图像生成与编辑应用
02-27 图像生成 图像编辑 Nano Banana 2
[自动] [BLOGS_PODCASTS]
3minmic Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览
02-27 Gemini Google 图像生成
[自动] [GITHUB_TRENDING]
2minhub 基于大模型的AI助理CowAgent:主动思考、任务规划与多平台接入
02-27 LLM Agent Python
[自动] [ARXIV]
4minschool 面向高效高分辨率GUI智能体的时空令牌剪枝
02-27 GUI Agent Token Pruning Qwen2-VL
[自动] [ARXIV]
3minschool MovieTeller:工具增强且ID一致的渐进式摘要生成
02-27 MovieTeller 视频摘要 VLM
[自动] [GITHUB_TRENDING]
1minhub 基于大模型的AI助理ChatGPT-on-WeChat:支持多平台接入与多模型
02-26 ChatGPT-on-WeChat LLM AI助理
[自动] [JUEJIN]
2minsticky_note_2 AI Agent接管手机:移动端观测技术与事件特征提取
02-26 AI Agent 移动端 UI 树解析
[自动] [HACKER_NEWS]
1minnewspaper Ferret-UI Lite:端侧轻量级GUI Agent构建经验
02-26 Ferret-UI GUI Agent 端侧模型
[自动] [BLOGS_PODCASTS]
4minmic 基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能照片搜索系统
02-26 AWS CDK Rekognition
[自动] [HACKER_NEWS]
1minnewspaper 首个完全通用的计算机动作模型
02-26 Agent LLM 计算机控制
[自动] [BLOGS_PODCASTS]
3minmic 基于AWS CDK集成Rekognition、Neptune与Bedrock的智能图片搜索系统
02-26 AWS CDK Rekognition
[自动] [HACKER_NEWS]
1minnewspaper 首个完全通用的计算机动作模型
02-26 通用模型 计算机控制 Agent
[自动] [ARXIV]
4minschool TG-ASR:基于并行门控交叉注意力的翻译引导低资源语音识别
02-26 ASR 语音识别 低资源学习
[自动] [ARXIV]
1minschool 任意模态下的多向量索引压缩方法
02-26 多向量索引 模态压缩 Late Interaction
[自动] [BLOGS_PODCASTS]
4minmic 基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能图片搜索系统
02-25 AWS CDK Rekognition
[自动] [HACKER_NEWS]
1minnewspaper 首个完全通用的计算机动作模型
02-25 计算机动作模型 通用模型 Agent
[自动] [ARXIV]
1minschool 多模态任意向量索引压缩技术
02-25 向量检索 多模态 索引压缩
[自动] [ARXIV]
3minschool VAUQ:面向LVLM自评估的视觉感知不确定性量化
02-25 LVLM 多模态 不确定性量化
[自动] [ARXIV]
3minschool 面向大规模视频推理的综合基准测试套件
02-25 视频推理 VBVR 基准测试
[自动] [ARXIV]
3minschool 面向大规模视频推理的综合基准测试套件
02-24 视频推理 VBVR 基准测试
[自动] [GITHUB_TRENDING]
2minhub 接入多平台的大模型 AI 助理框架
02-24 LLM ChatGPT Python
[自动] [JUEJIN]
1minsticky_note_2 大模型开发演进:从ChatGPT到多模态与A2A协作
02-24 LLM ChatGPT 多模态
[自动] [GITHUB_TRENDING]
7minhub Kirara-AI:支持多平台接入的多模态聊天机器人框架
02-24 聊天机器人 多模态 LLM
[自动] [HACKER_NEWS]
1minnewspaper 53款模型“洗车”测试:评估多模态AI在物理场景中的表现
02-24 多模态 物理场景 模型评估
[自动] [GITHUB_TRENDING]
4minhub Kirara-AI:支持多平台接入的多模态AI聊天机器人
02-23 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3.1 Pro:面向复杂任务的深度解答模型
02-23 Gemini Google LLM
[自动] [GITHUB_TRENDING]
2minhub kirara-ai:支持多平台接入的多模态AI聊天机器人框架
02-23 LLM 聊天机器人 Python
[自动] [GITHUB_TRENDING]
1minhub ChatGPT-On-WeChat:基于大语言模型的微信接入平台
02-23 ChatGPT 微信机器人 Python
[自动] [GITHUB_TRENDING]
2minhub kirara-ai:支持多平台接入的多模态AI聊天机器人
02-22 LLM 聊天机器人 多模态
[自动] [GITHUB_TRENDING]
2minhub CowAgent:支持多平台接入与多模型调用的自主任务规划 AI 助理
02-22 ChatGPT-on-WeChat CowAgent AI 助理
[自动] [GITHUB_TRENDING]
2minhub Kirara-AI:多模态聊天机器人,支持微信QQ接入与多模型工作流
02-22 聊天机器人 多模态 LLM
[自动] [GITHUB_TRENDING]
2minhub Kirara-ai:多模态AI聊天机器人,支持微信QQ与多模型
02-21 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
2minmic Gemini 3.1 Pro:面向复杂任务设计的智能模型
02-21 Gemini Google LLM
[自动] [GITHUB_TRENDING]
8minhub kirara-ai:多模态AI聊天机器人,支持多平台接入与工作流
02-21 LLM 聊天机器人 多模态
[自动] [GITHUB_TRENDING]
1minhub ChatGPT-on-WeChat:接入多平台与大模型的多模态AI助理
02-21 ChatGPT-on-WeChat AI助理 多模态
[自动] [JUEJIN]
1minsticky_note_2 谷歌AI购物助手技术架构与商业化路径解析
02-21 谷歌 AI购物助手 Gemini
[自动] [GITHUB_TRENDING]
4minhub kirara-ai:多模态聊天机器人框架,支持微信QQ及多模型
02-20 聊天机器人 Python LLM
[自动] [GITHUB_TRENDING]
1minhub CowAgent:支持多平台接入与多模型的自主任务规划 AI 助理
02-20 LLM Python Agent
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 2.5 Pro:支持 100 万上下文窗口
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-19 Gemini Google LLM
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 3.1 Pro 预览版
02-19 Gemini Google LLM
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-19 Gemini Google LLM
[自动] [HACKER_NEWS]
1minnewspaper 谷歌发布 Gemini 3.1 模型
02-19 Google Gemini 模型发布
[自动] [BLOGS_PODCASTS]
3minmic Gemini应用集成Lyria 3模型,支持文本或图像生成30秒音轨
02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]
3minsticky_note_2 验证 DeepSeek-OCR:代码转 PDF 节省 40% Token
02-19 DeepSeek OCR Token优化
[自动] [BLOGS_PODCASTS]
2minmic Gemini应用集成Lyria 3模型,支持图文生成30秒音乐
02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]
3minsticky_note_2 Spring AI 多模态实战:构建图像理解应用
02-19 Spring AI 多模态 图像理解
[自动] [BLOGS_PODCASTS]
2minmic Gemini接入Lyria 3模型支持文字图像生成30秒音乐
02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]
3minsticky_note_2 Spring AI 多模态实战:构建图像理解应用
02-19 Spring AI 多模态 图像理解
[自动] [BLOGS_PODCASTS]
2minmic Gemini应用集成Lyria 3模型,支持文生30秒音乐
02-19 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
3minmic Gemini应用接入Lyria 3模型,支持图文生成30秒乐曲
02-19 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
2minmic Gemini接入Lyria 3模型,支持图文生成30秒音乐
02-18 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
2minmic Gemini应用集成Lyria 3模型,支持文图生成30秒音乐
02-18 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3 Deep Think:推进科学与工程研究
02-17 Gemini 3 DeepMind Deep Think
[自动] [JUEJIN]
2minsticky_note_2 Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解
02-17 Qwen3.5 MoE 多模态
[自动] [ARXIV]
4minschool 延迟视觉摄入优化图文密集文档问答
02-17 多模态 文档问答 VLM
[自动] [ARXIV]
4minschool UniWeTok:统一二进制分词器支持2^128码本规模
02-17 UniWeTok 多模态 Tokenizer
[自动] [HACKER_NEWS]
6minnewspaper Qwen3.5:迈向原生多模态智能体
02-17 Qwen3.5 多模态 智能体
[自动] [ARXIV]
5minschool CoPE-VideoLM:基于编解码基元的高效视频语言模型
02-17 VideoLM 视频理解 多模态
[自动] [ARXIV]
4minschool CoPE-VideoLM:基于编解码基元的高效视频语言模型
02-16 VideoLM 多模态 视频理解
[自动] [HACKER_NEWS]
3minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
4minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
7minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
5minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
6minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展方法
02-16 多模态 思维链 测试时扩展
[自动] [ARXIV]
4minschool 扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐
02-15 VLA 具身智能 机器人
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展方法
02-15 多模态 思维链 测试时扩展
[自动] [JUEJIN]
4minsticky_note_2 Vercel AI SDK v6 新增 generateImage 函数:统一图像模型调用
02-15 Vercel AI SDK 图像生成 OpenAI
[自动] [GITHUB_TRENDING]
10minhub ChatGPT-on-WeChat:支持多平台接入与多模型配置的AI助理
02-14 ChatGPT-on-WeChat LLM Python
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展
02-14 多模态 思维链 测试时扩展
[自动] [HACKER_NEWS]
4minnewspaper Gemini 3 Deep Think 生成鹈鹕骑自行车 SVG 图像
02-14 Gemini 3 Deep Think SVG
[自动] [ARXIV]
4minschool 扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐
02-13 VLA 具身智能 机器人
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展方法
02-13 多模态 思维链 测试时扩展
[自动] [ARXIV]
4minschool KAN-FIF:基于样条参数化的轻量级气象卫星热带气旋估算模型
02-13 KAN 气象预测 热带气旋
[自动] [ARXIV]
4minschool 基于归一化流的高效分层目标条件强化学习
02-13 强化学习 分层强化学习 归一化流
[自动] [BLOGS_PODCASTS]
3minmic 亚马逊利用Nova模型自动化新履约中心运营就绪测试
02-12 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2 与 Seedance 2:中国生成式媒体进展
02-12 Qwen Image 2 Seedance 2 图像生成
[自动] [JUEJIN]
2minsticky_note_2 基于GLM-5与OpenClaw构建具备任务执行能力的AI伴侣
02-12 GLM-5 OpenClaw AI Agent
[自动] [BLOGS_PODCASTS]
3minmic 中国生成式媒体模型Qwen Image 2与Seedance 2发布
02-12 Qwen Image 2 Seedance 2 生成式媒体
[自动] [BLOGS_PODCASTS]
2minmic 亚马逊利用Nova模型自动化检测新履约中心组件
02-12 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2 与 Seedance 2:中国生成式媒体进展
02-12 Qwen Image 2 Seedance 2 文生图
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2 与 Seedance 2:中国生成式媒体模型进展
02-12 Qwen Image 2 Seedance 2 通义千问
[自动] [ARXIV]
2minschool 用于增强科学图表分析的智能代理
02-12 智能代理 科学图表 多模态
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2与Seedance 2:中国生成式媒体模型进展
02-12 Qwen Image 2 Seedance 2 生成式媒体
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:面向复杂文档理解的多模态OCR模型
02-12 GLM-OCR 多模态 OCR
[自动] [BLOGS_PODCASTS]
3minmic 亚马逊利用Nova模型自动化新履约中心运营准备检测
02-11 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]
4minmic 中国生成式媒体模型Qwen Image 2与Seedance 2发布
02-11 Qwen Image 2 Seedance 2 文生图
[自动] [JUEJIN]
1minsticky_note_2 讯飞星火X2发布:纯国产算力大模型性能对标GPT
02-11 讯飞星火 国产算力 GPT
[自动] [BLOGS_PODCASTS]
2minmic Qwen Image 2与Seedance 2发布:中国生成式媒体表现强劲
02-11 Qwen Image 2 Seedance 2 通义千问
[自动] [BLOGS_PODCASTS]
2minmic How Amazon uses Amazon Nova models to automate operatio
02-11 Amazon Nova Amazon Bedrock 多模态
[自动] [HACKER_NEWS]
3minnewspaper GLM-OCR: Accurate × Fast × Comprehensive
02-11 GLM-OCR OCR 多模态
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:兼顾准确度、速度与通用性的多模态大模型
02-11 GLM-OCR 多模态 OCR
[自动] [ARXIV]
2minschool Anagent For Enhancing Scientific Table & Figure Analysi
02-11 Anagent 多智能体 科学图表分析
[自动] [BLOGS_PODCASTS]
1minmic [AINews] Qwen Image 2 and Seedance 2
02-11 Qwen Image 2 Seedance 2 通义千问
[自动] [HACKER_NEWS]
4minnewspaper Qwen-Image-2.0:生成专业信息图表与逼真照片
02-10 Qwen 通义千问 文生图
[自动] [HACKER_NEWS]
4minnewspaper Qwen-Image-2.0:生成专业信息图与逼真照片
02-10 Qwen Qwen-Image-2.0 文生图
[自动] [HACKER_NEWS]
2minnewspaper Qwen-Image-2.0: Professional infographics, exquisite ph
02-10 Qwen Qwen-Image-2.0 文生图
[自动] [HACKER_NEWS]
2minnewspaper Qwen-Image-2.0:专业信息图表与逼真照片生成
02-10 Qwen Qwen-Image-2.0 文生图
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直观物理
02-09 VLM 直觉物理 强化学习
[自动] [ARXIV]
5minschool 共享LoRA子空间实现近乎严格的持续学习
02-09 持续学习 LoRA 灾难性遗忘
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直觉物理
02-08 VLM 直觉物理 多模态
[自动] [GITHUB_TRENDING]
10minhub 基于大模型的主动思考AI助理ChatGPT-on-Wechat
02-08 ChatGPT-on-Wechat LLM Agent
[自动] [GITHUB_TRENDING]
11minhub CowAgent:基于大模型的自主任务规划与多平台接入 AI 助理
02-07 LLM Agent Python
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直观物理
02-07 VLM 多模态 具身智能
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:基于多传感器数据生成驾驶场景
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
6minnewspaper Waymo 世界模型:利用生成式世界模型提升自动驾驶决策能力
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:自动驾驶场景生成与仿真应用
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:利用生成式世界模拟提升自动驾驶决策
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:自动驾驶场景生成与预测架构
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
6minnewspaper Waymo 世界模型:端到端自动驾驶的仿真与预测架构
02-07 Waymo 世界模型 端到端
[自动] [GITHUB_TRENDING]
11minhub ChatGPT-on-WeChat:支持多模型与多平台接入的AI助理框架
02-07 ChatGPT-on-WeChat LLM AI助理
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直觉物理
02-06 VLM 直觉物理 强化学习
[自动] [GITHUB_TRENDING]
11minhub 基于大模型的主动思考型 AI 助理 CowAgent 支持多平台接入
02-06 LLM Agent Python
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:利用生成式视频预测驾驶场景
02-06 Waymo 世界模型 生成式视频
[自动] [HACKER_NEWS]
3minnewspaper Waymo世界模型:自动驾驶仿真的新前沿
02-06 Waymo 自动驾驶 世界模型
[自动] [HACKER_NEWS]
6minnewspaper Waymo世界模型:自动驾驶仿真的新前沿
02-06 Waymo 自动驾驶 世界模型
[自动] [ARXIV]
4minschool 受限群组相对策略优化
02-06 GRPO 强化学习 策略优化
[自动] [ARXIV]
5minschool RRAttention:基于轮询移位的动态块稀疏注意力机制
02-06 RRAttention 稀疏注意力 长上下文
[自动] [ARXIV]
4minschool 强化注意力学习:通过奖励机制优化视觉注意力模型
02-06 强化学习 多模态 注意力机制
[自动] [ARXIV]
4minschool 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性
02-06 多模态 上下文学习 ICL
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [ARXIV]
3minschool 多层交叉注意力被证明是多模态上下文学习的最优解
02-05 多模态 上下文学习 ICL
[自动] [GITHUB_TRENDING]
9minhub CowAgent:基于大模型的AI助理,支持主动思考与多平台接入
02-05 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 多模态 检索 Nemotron
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [BLOGS_PODCASTS]
4minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [GITHUB_TRENDING]
11minhub CowAgent:基于大模型的自主任务规划与多平台接入助手
02-05 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [ARXIV]
5minschool PrevizWhiz:结合粗略3D场景与2D视频引导生成式预演
02-05 AIGC 视频生成 3D场景
[自动] [ARXIV]
5minschool PrevizWhiz:结合粗略3D场景与2D视频引导生成视频预演
02-04 视频生成 3D视觉 PrevizWhiz
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-04 Nemotron ColEmbed ViDoRe
[自动] [GITHUB_TRENDING]
11minhub CowAgent:具备主动思考与长期记忆的大模型 AI 助理
02-04 LLM Agent Python
[自动] [HACKER_NEWS]
5minnewspaper Agent Skills:大模型智能体的技能评估框架
02-03 Agent LLM 评估框架
[自动] [BLOGS_PODCASTS]
4minmic xAI 发布 Grok Imagine API:对标 SOTA 视频模型与 SpaceX 合并前瞻
02-03 xAI Grok 视频生成
[自动] [ARXIV]
3minschool HERMES:基于视觉语言模型的长尾自动驾驶端到端风险感知系统
02-03 自动驾驶 VLM 长尾场景
[自动] [ARXIV]
4minschool DeALOG:基于日志中介的去中心化多智能体推理框架
02-03 Multi-Agent 去中心化 日志中介
[自动] [ARXIV]
5minschool VideoGPA:提取几何先验实现三维一致视频生成
02-02 视频生成 3D一致性 扩散模型
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准
02-02 UEval 多模态 基准测试
[自动] [BLOGS_PODCASTS]
3minmic xAI巩固前沿实验室地位并拟与SpaceX合并
02-01 xAI SpaceX Grok
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准评测
02-01 UEval 多模态 基准评测
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、缩放定律与中国发展
02-01 LLM 智能体 缩放定律
[自动] [GITHUB_TRENDING]
10minhub 多模态 AI 聊天机器人 Kirara AI:支持多平台接入与主流模型
02-01 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频及百并发Agent管理
02-01 Moonshot AI Kimi k2.5 开源模型
2026年一月 30 篇
类型阅读条目
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准
01-31 多模态 UEval 基准测试
[自动] [GITHUB_TRENDING]
11minhub Kirara-AI:多模态聊天机器人框架,支持多平台接入与工作流
01-31 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
3minmic Kimi K2.5:半价超越Sonnet 4.5,支持原生多模态与百并发Agent
01-31 Kimi k1.5 Moonshot AI 开源模型
[自动] [GITHUB_TRENDING]
16minhub kirara-ai:支持多平台接入的多模态AI聊天机器人框架
01-31 聊天机器人 多模态 LLM
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解
01-31 Kimi K2.5 技术报告 长上下文
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频与百并发Agent管理
01-31 Moonshot Kimi K2.5 SOTA
[自动] [ARXIV]
3minschool UEval:统一多模态生成基准
01-30 UEval 多模态 统一模型
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频及百并发Agent管理
01-30 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]
11minhub Kirara-AI:支持多平台接入的多模态聊天机器人框架
01-30 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic Moonshot K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理
01-30 Moonshot Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]
4minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理
01-30 Moonshot AI Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频
01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]
10minhub Kirara-ai:支持多平台接入的多模态AI聊天机器人
01-29 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:半价超越Sonnet 4.5,原生图文视频与百并发Agent管理
01-29 Kimi k2.5 Moonshot AI 月之暗面
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文与百并发智能体
01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K25:成本减半超越Sonnet 45,原生图文视频与百并发Agent管理
01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]
10minhub kirara-ai:支持多平台接入的多模态AI聊天机器人框架
01-29 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
2minmic Moonshot Kimi K2.5:半价超越Sonnet 4.5,支持原生图文视频与百并发智能体
01-29 Moonshot AI Kimi k2.5 Sonnet 4.5
[自动] [GITHUB_TRENDING]
10minhub 🚀 lss233/kirara-ai:AI驱动的超强项目!GitHub必看!✨
01-28 聊天机器人 多模态 Python
[自动] [GITHUB_TRENDING]
10minhub 🚀 kirara-ai:AI绘画神器!lss233打造,效率翻倍!
01-27 Kirara AI 聊天机器人 多模态
[自动] [ARXIV]
4minschool 🔍脑电+情感=超强分析!MEG数据解锁情绪新维度
01-27 MEG 情感分析 脑机接口
[自动] [HACKER_NEWS]
3minnewspaper 🚀Kimi K2.5震撼开源!视觉SOTA级智能模型,性能炸裂!
01-27 Kimi K2.5 Moonshot AI 视觉模型
[自动] [HACKER_NEWS]
4minnewspaper 🚀Kimi K2.5重磅开源!视觉SOTA级Agent模型,AI新王炸?
01-27 Kimi Moonshot AI K1.5
[自动] [HACKER_NEWS]
3minnewspaper Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥
01-27 Kimi K2.5 多模态
[自动] [BLOGS_PODCASTS]
3minmic AssetOpsBench:打破AI Agent评测与工业现实的壁垒!🚀
01-26 AI Agent AssetOpsBench 工业智能
[自动] [ARXIV]
5minschool AgentDrive:首个开放基准!🚗 LLM生成场景驱动Agent智能推理
01-26 AgentDrive 自动驾驶 基准测试
[自动] [HACKER_NEWS]
4minnewspaper 🔥ChatGPT WebUI重磅升级!530模型+MCP+全能RAG,AI能力原地起飞!
01-26 ChatGPT WebUI LLM
[自动] [HACKER_NEWS]
3minnewspaper 💥文本为王!揭秘AI时代最被低估的核心价值!
01-26 LLM RAG 语义检索
[自动] [ARXIV]
6minschool 🤖抽屉打不开?揭秘零样本组合动作识别中的“物体捷径”!
01-25 计算机视觉 零样本学习 动作识别
[自动] [ARXIV]
5minschool 🔥PyraTok!视频生成神器:语言对齐金字塔Tokenizer震撼来袭!
01-25 PyraTok 视频生成 视频理解