多模态

条目：193

2026年三月 5 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 规模难以克服语用学：报告偏差对视觉语言推理的影响 03-01 VLM 视觉语言模型报告偏差
[自动] [GITHUB_TRENDING]	11min	hub 基于大模型的AI助理CowAgent：支持多平台接入与多模型处理 03-01 LLM Agent Python
[自动] [ARXIV]	4min	school SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 03-01 多模态视觉语言模型最优传输
[自动] [BLOGS_PODCASTS]	2min	mic Nano Banana 2：Gemini 3.1 Flash 图像生成模型预览 03-01 Gemini 图像生成 SOTA
[自动] [BLOGS_PODCASTS]	2min	mic Nano Banana 2：Gemini 3.1 Flash 图像生成模型预览 03-01 Gemini 图像生成 SOTA

2026年二月 158 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic 首个 Gemini 3.1 模型 Nano Banana 2 预览：SOTA 图像生成 02-28 Gemini Nano Banana 2 图像生成
[自动] [GITHUB_TRENDING]	11min	hub zhayujie/chatgpt-on-wechat：接入多平台与模型的多模态AI助手框架 02-28 ChatGPT 微信机器人多模态
[自动] [ARXIV]	4min	school SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 02-28 多模态视觉语言模型最优传输
[自动] [ARXIV]	4min	school SeeThrough3D：文本生成图像中的遮挡感知三维控制 02-28 SeeThrough3D 文本生成图像 3D控制
[自动] [JUEJIN]	3min	sticky_note_2 EverMemOS：开源Agent长时记忆系统，LoCoMo推理准确率93% 02-28 Agent 长时记忆 EverMemOS
[自动] [BLOGS_PODCASTS]	4min	mic Gemini 3.1 Flash Image Preview 登场：全新 SOTA 图像生成模型 02-28 Gemini 3.1 Nano Banana 2 图像生成
[自动] [BLOGS_PODCASTS]	2min	mic 使用 Nano Banana 2 构建图像生成与编辑应用 02-28 图像生成图像编辑 Nano Banana 2
[自动] [ARXIV]	4min	school 规模难以克服语用学：报告偏差对视觉语言推理的影响 02-27 VLM 视觉语言模型报告偏差
[自动] [ARXIV]	4min	school SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 02-27 多模态视觉语言模型最优传输
[自动] [BLOGS_PODCASTS]	4min	mic Gemini 2.0 Flash 登场：成新一代 SOTA 图像生成模型 02-27 Gemini Google 图像生成
[自动] [GITHUB_TRENDING]	11min	hub CowAgent：基于大模型的自主思考与任务规划 AI 助理 02-27 LLM Agent Python
[自动] [BLOGS_PODCASTS]	3min	mic 使用 Nano Banana 2 构建图像生成与编辑应用 02-27 图像生成图像编辑 Nano Banana 2
[自动] [BLOGS_PODCASTS]	3min	mic Nano Banana 2：Gemini 3.1 Flash 图像生成模型预览 02-27 Gemini Google 图像生成
[自动] [GITHUB_TRENDING]	11min	hub 基于大模型的AI助理CowAgent：主动思考、任务规划与多平台接入 02-27 LLM Agent Python
[自动] [ARXIV]	5min	school 面向高效高分辨率GUI智能体的时空令牌剪枝 02-27 GUI Agent Token Pruning Qwen2-VL
[自动] [ARXIV]	4min	school MovieTeller：工具增强且ID一致的渐进式摘要生成 02-27 MovieTeller 视频摘要 VLM
[自动] [GITHUB_TRENDING]	11min	hub 基于大模型的AI助理ChatGPT-on-WeChat：支持多平台接入与多模型 02-26 ChatGPT-on-WeChat LLM AI助理
[自动] [JUEJIN]	2min	sticky_note_2 AI Agent接管手机：移动端观测技术与事件特征提取 02-26 AI Agent 移动端 UI 树解析
[自动] [HACKER_NEWS]	5min	newspaper Ferret-UI Lite：端侧轻量级GUI Agent构建经验 02-26 Ferret-UI GUI Agent 端侧模型
[自动] [BLOGS_PODCASTS]	4min	mic 基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能照片搜索系统 02-26 AWS CDK Rekognition
[自动] [HACKER_NEWS]	4min	newspaper 首个完全通用的计算机动作模型 02-26 Agent LLM 计算机控制
[自动] [BLOGS_PODCASTS]	3min	mic 基于AWS CDK集成Rekognition、Neptune与Bedrock的智能图片搜索系统 02-26 AWS CDK Rekognition
[自动] [HACKER_NEWS]	4min	newspaper 首个完全通用的计算机动作模型 02-26 通用模型计算机控制 Agent
[自动] [ARXIV]	4min	school TG-ASR：基于并行门控交叉注意力的翻译引导低资源语音识别 02-26 ASR 语音识别低资源学习
[自动] [ARXIV]	5min	school 任意模态下的多向量索引压缩方法 02-26 多向量索引模态压缩 Late Interaction
[自动] [BLOGS_PODCASTS]	4min	mic 基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能图片搜索系统 02-25 AWS CDK Rekognition
[自动] [HACKER_NEWS]	3min	newspaper 首个完全通用的计算机动作模型 02-25 计算机动作模型通用模型 Agent
[自动] [ARXIV]	6min	school 多模态任意向量索引压缩技术 02-25 向量检索多模态索引压缩
[自动] [ARXIV]	4min	school VAUQ：面向LVLM自评估的视觉感知不确定性量化 02-25 LVLM 多模态不确定性量化
[自动] [ARXIV]	4min	school 面向大规模视频推理的综合基准测试套件 02-25 视频推理 VBVR 基准测试
[自动] [ARXIV]	4min	school 面向大规模视频推理的综合基准测试套件 02-24 视频推理 VBVR 基准测试
[自动] [GITHUB_TRENDING]	10min	hub 接入多平台的大模型 AI 助理框架 02-24 LLM ChatGPT Python
[自动] [JUEJIN]	2min	sticky_note_2 大模型开发演进：从ChatGPT到多模态与A2A协作 02-24 LLM ChatGPT 多模态
[自动] [GITHUB_TRENDING]	14min	hub Kirara-AI：支持多平台接入的多模态聊天机器人框架 02-24 聊天机器人多模态 LLM
[自动] [HACKER_NEWS]	3min	newspaper 53款模型“洗车”测试：评估多模态AI在物理场景中的表现 02-24 多模态物理场景模型评估
[自动] [GITHUB_TRENDING]	10min	hub Kirara-AI：支持多平台接入的多模态AI聊天机器人 02-23 LLM 聊天机器人多模态
[自动] [BLOGS_PODCASTS]	3min	mic Gemini 3.1 Pro：面向复杂任务的深度解答模型 02-23 Gemini Google LLM
[自动] [GITHUB_TRENDING]	11min	hub kirara-ai：支持多平台接入的多模态AI聊天机器人框架 02-23 LLM 聊天机器人 Python
[自动] [GITHUB_TRENDING]	11min	hub ChatGPT-On-WeChat：基于大语言模型的微信接入平台 02-23 ChatGPT 微信机器人 Python
[自动] [GITHUB_TRENDING]	11min	hub kirara-ai：支持多平台接入的多模态AI聊天机器人 02-22 LLM 聊天机器人多模态
[自动] [GITHUB_TRENDING]	11min	hub CowAgent：支持多平台接入与多模型调用的自主任务规划 AI 助理 02-22 ChatGPT-on-WeChat CowAgent AI 助理
[自动] [GITHUB_TRENDING]	11min	hub Kirara-AI：多模态聊天机器人，支持微信QQ接入与多模型工作流 02-22 聊天机器人多模态 LLM
[自动] [GITHUB_TRENDING]	11min	hub Kirara-ai：多模态AI聊天机器人，支持微信QQ与多模型 02-21 LLM 聊天机器人多模态
[自动] [BLOGS_PODCASTS]	2min	mic Gemini 3.1 Pro：面向复杂任务设计的智能模型 02-21 Gemini Google LLM
[自动] [GITHUB_TRENDING]	11min	hub kirara-ai：多模态AI聊天机器人，支持多平台接入与工作流 02-21 LLM 聊天机器人多模态
[自动] [GITHUB_TRENDING]	11min	hub ChatGPT-on-WeChat：接入多平台与大模型的多模态AI助理 02-21 ChatGPT-on-WeChat AI助理多模态
[自动] [JUEJIN]	1min	sticky_note_2 谷歌AI购物助手技术架构与商业化路径解析 02-21 谷歌 AI购物助手 Gemini
[自动] [GITHUB_TRENDING]	11min	hub kirara-ai：多模态聊天机器人框架，支持微信QQ及多模型 02-20 聊天机器人 Python LLM
[自动] [GITHUB_TRENDING]	11min	hub CowAgent：支持多平台接入与多模型的自主任务规划 AI 助理 02-20 LLM Python Agent
[自动] [HACKER_NEWS]	5min	newspaper 谷歌发布 Gemini 2.5 Pro：支持 100 万上下文窗口 02-20 Gemini Google LLM
[自动] [HACKER_NEWS]	4min	newspaper 谷歌发布 Gemini 3.1 Pro 模型 02-20 Gemini Google LLM
[自动] [HACKER_NEWS]	7min	newspaper 谷歌发布 Gemini 3.1 Pro 模型 02-20 Gemini Google LLM
[自动] [HACKER_NEWS]	5min	newspaper 谷歌发布 Gemini 3.1 Pro 模型 02-19 Gemini Google LLM
[自动] [HACKER_NEWS]	7min	newspaper 谷歌发布 Gemini 3.1 Pro 预览版 02-19 Gemini Google LLM
[自动] [HACKER_NEWS]	8min	newspaper 谷歌发布 Gemini 3.1 Pro 模型 02-19 Gemini Google LLM
[自动] [HACKER_NEWS]	5min	newspaper 谷歌发布 Gemini 3.1 模型 02-19 Google Gemini 模型发布
[自动] [BLOGS_PODCASTS]	3min	mic Gemini应用集成Lyria 3模型，支持文本或图像生成30秒音轨 02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]	3min	sticky_note_2 验证 DeepSeek-OCR：代码转 PDF 节省 40% Token 02-19 DeepSeek OCR Token优化
[自动] [BLOGS_PODCASTS]	2min	mic Gemini应用集成Lyria 3模型，支持图文生成30秒音乐 02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]	3min	sticky_note_2 Spring AI 多模态实战：构建图像理解应用 02-19 Spring AI 多模态图像理解
[自动] [BLOGS_PODCASTS]	2min	mic Gemini接入Lyria 3模型支持文字图像生成30秒音乐 02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]	3min	sticky_note_2 Spring AI 多模态实战：构建图像理解应用 02-19 Spring AI 多模态图像理解
[自动] [BLOGS_PODCASTS]	2min	mic Gemini应用集成Lyria 3模型，支持文生30秒音乐 02-19 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]	3min	mic Gemini应用接入Lyria 3模型，支持图文生成30秒乐曲 02-19 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]	2min	mic Gemini接入Lyria 3模型，支持图文生成30秒音乐 02-18 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]	2min	mic Gemini应用集成Lyria 3模型，支持文图生成30秒音乐 02-18 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]	3min	mic Gemini 3 Deep Think：推进科学与工程研究 02-17 Gemini 3 DeepMind Deep Think
[自动] [JUEJIN]	2min	sticky_note_2 Qwen3.5-397B-A17B：极致稀疏MoE架构与多模态能力详解 02-17 Qwen3.5 MoE 多模态
[自动] [ARXIV]	4min	school 延迟视觉摄入优化图文密集文档问答 02-17 多模态文档问答 VLM
[自动] [ARXIV]	5min	school UniWeTok：统一二进制分词器支持2^128码本规模 02-17 UniWeTok 多模态 Tokenizer
[自动] [HACKER_NEWS]	6min	newspaper Qwen3.5：迈向原生多模态智能体 02-17 Qwen3.5 多模态智能体
[自动] [ARXIV]	5min	school CoPE-VideoLM：基于编解码基元的高效视频语言模型 02-17 VideoLM 视频理解多模态
[自动] [ARXIV]	4min	school CoPE-VideoLM：基于编解码基元的高效视频语言模型 02-16 VideoLM 多模态视频理解
[自动] [HACKER_NEWS]	3min	newspaper Qwen3.5：迈向原生多模态智能体 02-16 Qwen3.5 多模态智能体
[自动] [HACKER_NEWS]	4min	newspaper Qwen3.5：迈向原生多模态智能体 02-16 Qwen3.5 多模态智能体
[自动] [HACKER_NEWS]	7min	newspaper Qwen3.5：迈向原生多模态智能体 02-16 Qwen3.5 多模态智能体
[自动] [HACKER_NEWS]	5min	newspaper Qwen3.5：迈向原生多模态智能体 02-16 Qwen3.5 多模态智能体
[自动] [HACKER_NEWS]	6min	newspaper Qwen3.5：迈向原生多模态智能体 02-16 Qwen3.5 多模态智能体
[自动] [ARXIV]	4min	school UniT：统一多模态思维链测试时扩展方法 02-16 多模态思维链测试时扩展
[自动] [ARXIV]	4min	school 扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐 02-15 VLA 具身智能机器人
[自动] [ARXIV]	4min	school UniT：统一多模态思维链测试时扩展方法 02-15 多模态思维链测试时扩展
[自动] [JUEJIN]	4min	sticky_note_2 Vercel AI SDK v6 新增 generateImage 函数：统一图像模型调用 02-15 Vercel AI SDK 图像生成 OpenAI
[自动] [GITHUB_TRENDING]	11min	hub ChatGPT-on-WeChat：支持多平台接入与多模型配置的AI助理 02-14 ChatGPT-on-WeChat LLM Python
[自动] [ARXIV]	4min	school UniT：统一多模态思维链测试时扩展 02-14 多模态思维链测试时扩展
[自动] [HACKER_NEWS]	5min	newspaper Gemini 3 Deep Think 生成鹈鹕骑自行车 SVG 图像 02-14 Gemini 3 Deep Think SVG
[自动] [ARXIV]	4min	school 扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐 02-13 VLA 具身智能机器人
[自动] [ARXIV]	4min	school UniT：统一多模态思维链测试时扩展方法 02-13 多模态思维链测试时扩展
[自动] [ARXIV]	4min	school KAN-FIF：基于样条参数化的轻量级气象卫星热带气旋估算模型 02-13 KAN 气象预测热带气旋
[自动] [ARXIV]	4min	school 基于归一化流的高效分层目标条件强化学习 02-13 强化学习分层强化学习归一化流
[自动] [BLOGS_PODCASTS]	3min	mic 亚马逊利用Nova模型自动化新履约中心运营就绪测试 02-12 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]	3min	mic Qwen Image 2 与 Seedance 2：中国生成式媒体进展 02-12 Qwen Image 2 Seedance 2 图像生成
[自动] [JUEJIN]	2min	sticky_note_2 基于GLM-5与OpenClaw构建具备任务执行能力的AI伴侣 02-12 GLM-5 OpenClaw AI Agent
[自动] [BLOGS_PODCASTS]	3min	mic 中国生成式媒体模型Qwen Image 2与Seedance 2发布 02-12 Qwen Image 2 Seedance 2 生成式媒体
[自动] [BLOGS_PODCASTS]	2min	mic 亚马逊利用Nova模型自动化检测新履约中心组件 02-12 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]	3min	mic Qwen Image 2 与 Seedance 2：中国生成式媒体进展 02-12 Qwen Image 2 Seedance 2 文生图
[自动] [BLOGS_PODCASTS]	3min	mic Qwen Image 2 与 Seedance 2：中国生成式媒体模型进展 02-12 Qwen Image 2 Seedance 2 通义千问
[自动] [ARXIV]	2min	school 用于增强科学图表分析的智能代理 02-12 智能代理科学图表多模态
[自动] [BLOGS_PODCASTS]	3min	mic Qwen Image 2与Seedance 2：中国生成式媒体模型进展 02-12 Qwen Image 2 Seedance 2 生成式媒体
[自动] [HACKER_NEWS]	4min	newspaper GLM-OCR：面向复杂文档理解的多模态OCR模型 02-12 GLM-OCR 多模态 OCR
[自动] [BLOGS_PODCASTS]	3min	mic 亚马逊利用Nova模型自动化新履约中心运营准备检测 02-11 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]	4min	mic 中国生成式媒体模型Qwen Image 2与Seedance 2发布 02-11 Qwen Image 2 Seedance 2 文生图
[自动] [JUEJIN]	1min	sticky_note_2 讯飞星火X2发布：纯国产算力大模型性能对标GPT 02-11 讯飞星火国产算力 GPT
[自动] [BLOGS_PODCASTS]	2min	mic Qwen Image 2与Seedance 2发布：中国生成式媒体表现强劲 02-11 Qwen Image 2 Seedance 2 通义千问
[自动] [BLOGS_PODCASTS]	2min	mic How Amazon uses Amazon Nova models to automate operatio 02-11 Amazon Nova Amazon Bedrock 多模态
[自动] [HACKER_NEWS]	3min	newspaper GLM-OCR: Accurate × Fast × Comprehensive 02-11 GLM-OCR OCR 多模态
[自动] [HACKER_NEWS]	4min	newspaper GLM-OCR：兼顾准确度、速度与通用性的多模态大模型 02-11 GLM-OCR 多模态 OCR
[自动] [ARXIV]	2min	school Anagent For Enhancing Scientific Table & Figure Analysi 02-11 Anagent 多智能体科学图表分析
[自动] [BLOGS_PODCASTS]	1min	mic [AINews] Qwen Image 2 and Seedance 2 02-11 Qwen Image 2 Seedance 2 通义千问
[自动] [HACKER_NEWS]	4min	newspaper Qwen-Image-2.0：生成专业信息图表与逼真照片 02-10 Qwen 通义千问文生图
[自动] [HACKER_NEWS]	4min	newspaper Qwen-Image-2.0：生成专业信息图与逼真照片 02-10 Qwen Qwen-Image-2.0 文生图
[自动] [HACKER_NEWS]	2min	newspaper Qwen-Image-2.0: Professional infographics, exquisite ph 02-10 Qwen Qwen-Image-2.0 文生图
[自动] [HACKER_NEWS]	2min	newspaper Qwen-Image-2.0：专业信息图表与逼真照片生成 02-10 Qwen Qwen-Image-2.0 文生图
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直观物理 02-09 VLM 直觉物理强化学习
[自动] [ARXIV]	5min	school 共享LoRA子空间实现近乎严格的持续学习 02-09 持续学习 LoRA 灾难性遗忘
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直觉物理 02-08 VLM 直觉物理多模态
[自动] [GITHUB_TRENDING]	10min	hub 基于大模型的主动思考AI助理ChatGPT-on-Wechat 02-08 ChatGPT-on-Wechat LLM Agent
[自动] [GITHUB_TRENDING]	11min	hub CowAgent：基于大模型的自主任务规划与多平台接入 AI 助理 02-07 LLM Agent Python
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直观物理 02-07 VLM 多模态具身智能
[自动] [HACKER_NEWS]	4min	newspaper Waymo 世界模型：基于多传感器数据生成驾驶场景 02-07 Waymo 世界模型自动驾驶
[自动] [HACKER_NEWS]	6min	newspaper Waymo 世界模型：利用生成式世界模型提升自动驾驶决策能力 02-07 Waymo 世界模型自动驾驶
[自动] [HACKER_NEWS]	4min	newspaper Waymo 世界模型：自动驾驶场景生成与仿真应用 02-07 Waymo 世界模型自动驾驶
[自动] [HACKER_NEWS]	4min	newspaper Waymo 世界模型：利用生成式世界模拟提升自动驾驶决策 02-07 Waymo 世界模型自动驾驶
[自动] [HACKER_NEWS]	4min	newspaper Waymo 世界模型：自动驾驶场景生成与预测架构 02-07 Waymo 世界模型自动驾驶
[自动] [HACKER_NEWS]	6min	newspaper Waymo 世界模型：端到端自动驾驶的仿真与预测架构 02-07 Waymo 世界模型端到端
[自动] [GITHUB_TRENDING]	11min	hub ChatGPT-on-WeChat：支持多模型与多平台接入的AI助理框架 02-07 ChatGPT-on-WeChat LLM AI助理
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直觉物理 02-06 VLM 直觉物理强化学习
[自动] [GITHUB_TRENDING]	12min	hub 基于大模型的主动思考型 AI 助理 CowAgent 支持多平台接入 02-06 LLM Agent Python
[自动] [HACKER_NEWS]	4min	newspaper Waymo 世界模型：利用生成式视频预测驾驶场景 02-06 Waymo 世界模型生成式视频
[自动] [HACKER_NEWS]	4min	newspaper Waymo世界模型：自动驾驶仿真的新前沿 02-06 Waymo 自动驾驶世界模型
[自动] [HACKER_NEWS]	6min	newspaper Waymo世界模型：自动驾驶仿真的新前沿 02-06 Waymo 自动驾驶世界模型
[自动] [ARXIV]	4min	school 受限群组相对策略优化 02-06 GRPO 强化学习策略优化
[自动] [ARXIV]	5min	school RRAttention：基于轮询移位的动态块稀疏注意力机制 02-06 RRAttention 稀疏注意力长上下文
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	4min	school 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06 多模态上下文学习 ICL
[自动] [ARXIV]	4min	school 强化注意力学习：基于奖励反馈的注意力机制优化方法 02-05 强化学习注意力机制多模态
[自动] [ARXIV]	3min	school 多层交叉注意力被证明是多模态上下文学习的最优解 02-05 多模态上下文学习 ICL
[自动] [GITHUB_TRENDING]	10min	hub CowAgent：基于大模型的AI助理，支持主动思考与多平台接入 02-05 LLM Agent Python
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 02-05 多模态检索 Nemotron
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 02-05 Nemotron ColEmbed ViDoRe
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 02-05 Nemotron ColEmbed ViDoRe
[自动] [BLOGS_PODCASTS]	4min	mic Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 02-05 Nemotron ColEmbed ViDoRe
[自动] [GITHUB_TRENDING]	11min	hub CowAgent：基于大模型的自主任务规划与多平台接入助手 02-05 LLM Agent Python
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 02-05 Nemotron ColEmbed ViDoRe
[自动] [ARXIV]	5min	school PrevizWhiz：结合粗略3D场景与2D视频引导生成式预演 02-05 AIGC 视频生成 3D场景
[自动] [ARXIV]	5min	school PrevizWhiz：结合粗略3D场景与2D视频引导生成视频预演 02-04 视频生成 3D视觉 PrevizWhiz
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron ColEmbed V2：基于ViDoRe V3的多模态检索模型 02-04 Nemotron ColEmbed ViDoRe
[自动] [GITHUB_TRENDING]	11min	hub CowAgent：具备主动思考与长期记忆的大模型 AI 助理 02-04 LLM Agent Python
[自动] [HACKER_NEWS]	6min	newspaper Agent Skills：大模型智能体的技能评估框架 02-03 Agent LLM 评估框架
[自动] [BLOGS_PODCASTS]	4min	mic xAI 发布 Grok Imagine API：对标 SOTA 视频模型与 SpaceX 合并前瞻 02-03 xAI Grok 视频生成
[自动] [ARXIV]	3min	school HERMES：基于视觉语言模型的长尾自动驾驶端到端风险感知系统 02-03 自动驾驶 VLM 长尾场景
[自动] [ARXIV]	4min	school DeALOG：基于日志中介的去中心化多智能体推理框架 02-03 Multi-Agent 去中心化日志中介
[自动] [ARXIV]	5min	school VideoGPA：提取几何先验实现三维一致视频生成 02-02 视频生成 3D一致性扩散模型
[自动] [ARXIV]	4min	school UEval：统一多模态生成基准 02-02 UEval 多模态基准测试
[自动] [BLOGS_PODCASTS]	3min	mic xAI巩固前沿实验室地位并拟与SpaceX合并 02-01 xAI SpaceX Grok
[自动] [ARXIV]	4min	school UEval：统一多模态生成基准评测 02-01 UEval 多模态基准评测
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、缩放定律与中国发展 02-01 LLM 智能体缩放定律
[自动] [GITHUB_TRENDING]	10min	hub 多模态 AI 聊天机器人 Kirara AI：支持多平台接入与主流模型 02-01 聊天机器人多模态 LLM
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K2.5：成本减半超越Sonnet 4.5，支持原生图文视频及百并发Agent管理 02-01 Moonshot AI Kimi k2.5 开源模型

2026年一月 30 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school UEval：统一多模态生成基准 01-31 多模态 UEval 基准测试
[自动] [GITHUB_TRENDING]	11min	hub Kirara-AI：多模态聊天机器人框架，支持多平台接入与工作流 01-31 LLM 聊天机器人多模态
[自动] [BLOGS_PODCASTS]	3min	mic Kimi K2.5：半价超越Sonnet 4.5，支持原生多模态与百并发Agent 01-31 Kimi k1.5 Moonshot AI 开源模型
[自动] [GITHUB_TRENDING]	16min	hub kirara-ai：支持多平台接入的多模态AI聊天机器人框架 01-31 聊天机器人多模态 LLM
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：长上下文与多模态推理能力详解 01-31 Kimi K2.5 技术报告长上下文
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K2.5：成本减半超越Sonnet 4.5，支持原生图文视频与百并发Agent管理 01-31 Moonshot Kimi K2.5 SOTA
[自动] [ARXIV]	3min	school UEval：统一多模态生成基准 01-30 UEval 多模态统一模型
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K2.5：成本减半超越Sonnet 4.5，原生图文视频及百并发Agent管理 01-30 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]	11min	hub Kirara-AI：支持多平台接入的多模态聊天机器人框架 01-30 聊天机器人多模态 LLM
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot K2.5：成本减半超越Sonnet 4.5，原生图文视频与百并发Agent管理 01-30 Moonshot Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]	4min	mic Moonshot Kimi K2.5：成本减半超越Sonnet 4.5，原生图文视频与百并发Agent管理 01-30 Moonshot AI Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K2.5：成本减半超越Sonnet 4.5，支持原生图文视频 01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]	11min	hub Kirara-ai：支持多平台接入的多模态AI聊天机器人 01-29 聊天机器人多模态 LLM
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K2.5：半价超越Sonnet 4.5，原生图文视频与百并发Agent管理 01-29 Kimi k2.5 Moonshot AI 月之暗面
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K2.5：成本减半超越Sonnet 4.5，支持原生图文与百并发智能体 01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]	3min	mic Moonshot Kimi K25：成本减半超越Sonnet 45，原生图文视频与百并发Agent管理 01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]	11min	hub kirara-ai：支持多平台接入的多模态AI聊天机器人框架 01-29 聊天机器人多模态 LLM
[自动] [BLOGS_PODCASTS]	2min	mic Moonshot Kimi K2.5：半价超越Sonnet 4.5，支持原生图文视频与百并发智能体 01-29 Moonshot AI Kimi k2.5 Sonnet 4.5
[自动] [GITHUB_TRENDING]	10min	hub 🚀 lss233/kirara-ai：AI驱动的超强项目！GitHub必看！✨ 01-28 聊天机器人多模态 Python
[自动] [GITHUB_TRENDING]	10min	hub 🚀 kirara-ai：AI绘画神器！lss233打造，效率翻倍！ 01-27 Kirara AI 聊天机器人多模态
[自动] [ARXIV]	4min	school 🔍脑电+情感=超强分析！MEG数据解锁情绪新维度 01-27 MEG 情感分析脑机接口
[自动] [HACKER_NEWS]	3min	newspaper 🚀Kimi K2.5震撼开源！视觉SOTA级智能模型，性能炸裂！ 01-27 Kimi K2.5 Moonshot AI 视觉模型
[自动] [HACKER_NEWS]	4min	newspaper 🚀Kimi K2.5重磅开源！视觉SOTA级Agent模型，AI新王炸？ 01-27 Kimi Moonshot AI K1.5
[自动] [HACKER_NEWS]	3min	newspaper Kimi K2.5震撼开源！视觉SOTA Agent模型，性能炸裂🔥 01-27 Kimi K2.5 多模态
[自动] [BLOGS_PODCASTS]	3min	mic AssetOpsBench：打破AI Agent评测与工业现实的壁垒！🚀 01-26 AI Agent AssetOpsBench 工业智能
[自动] [ARXIV]	5min	school AgentDrive：首个开放基准！🚗 LLM生成场景驱动Agent智能推理 01-26 AgentDrive 自动驾驶基准测试
[自动] [HACKER_NEWS]	4min	newspaper 🔥ChatGPT WebUI重磅升级！530模型+MCP+全能RAG，AI能力原地起飞！ 01-26 ChatGPT WebUI LLM
[自动] [HACKER_NEWS]	3min	newspaper 💥文本为王！揭秘AI时代最被低估的核心价值！ 01-26 LLM RAG 语义检索
[自动] [ARXIV]	6min	school 🤖抽屉打不开？揭秘零样本组合动作识别中的“物体捷径”！ 01-25 计算机视觉零样本学习动作识别
[自动] [ARXIV]	5min	school 🔥PyraTok！视频生成神器：语言对齐金字塔Tokenizer震撼来袭！ 01-25 PyraTok 视频生成视频理解