terminal

AI Stack

rss_feed
SYS_STABLE
目录

多模态

条目:193
2026年三月 5 篇
类型阅读条目
[自动] [ARXIV]
4minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
03-01 VLM 视觉语言模型 报告偏差
[自动] [GITHUB_TRENDING]
11minhub 基于大模型的AI助理CowAgent:支持多平台接入与多模型处理
03-01 LLM Agent Python
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
03-01 多模态 视觉语言模型 最优传输
[自动] [BLOGS_PODCASTS]
2minmic Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览
03-01 Gemini 图像生成 SOTA
[自动] [BLOGS_PODCASTS]
2minmic Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览
03-01 Gemini 图像生成 SOTA
2026年二月 158 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic 首个 Gemini 3.1 模型 Nano Banana 2 预览:SOTA 图像生成
02-28 Gemini Nano Banana 2 图像生成
[自动] [GITHUB_TRENDING]
11minhub zhayujie/chatgpt-on-wechat:接入多平台与模型的多模态AI助手框架
02-28 ChatGPT 微信机器人 多模态
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-28 多模态 视觉语言模型 最优传输
[自动] [ARXIV]
4minschool SeeThrough3D:文本生成图像中的遮挡感知三维控制
02-28 SeeThrough3D 文本生成图像 3D控制
[自动] [JUEJIN]
3minsticky_note_2 EverMemOS:开源Agent长时记忆系统,LoCoMo推理准确率93%
02-28 Agent 长时记忆 EverMemOS
[自动] [BLOGS_PODCASTS]
4minmic Gemini 3.1 Flash Image Preview 登场:全新 SOTA 图像生成模型
02-28 Gemini 3.1 Nano Banana 2 图像生成
[自动] [BLOGS_PODCASTS]
2minmic 使用 Nano Banana 2 构建图像生成与编辑应用
02-28 图像生成 图像编辑 Nano Banana 2
[自动] [ARXIV]
4minschool 规模难以克服语用学:报告偏差对视觉语言推理的影响
02-27 VLM 视觉语言模型 报告偏差
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-27 多模态 视觉语言模型 最优传输
[自动] [BLOGS_PODCASTS]
4minmic Gemini 2.0 Flash 登场:成新一代 SOTA 图像生成模型
02-27 Gemini Google 图像生成
[自动] [GITHUB_TRENDING]
11minhub CowAgent:基于大模型的自主思考与任务规划 AI 助理
02-27 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic 使用 Nano Banana 2 构建图像生成与编辑应用
02-27 图像生成 图像编辑 Nano Banana 2
[自动] [BLOGS_PODCASTS]
3minmic Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览
02-27 Gemini Google 图像生成
[自动] [GITHUB_TRENDING]
11minhub 基于大模型的AI助理CowAgent:主动思考、任务规划与多平台接入
02-27 LLM Agent Python
[自动] [ARXIV]
5minschool 面向高效高分辨率GUI智能体的时空令牌剪枝
02-27 GUI Agent Token Pruning Qwen2-VL
[自动] [ARXIV]
4minschool MovieTeller:工具增强且ID一致的渐进式摘要生成
02-27 MovieTeller 视频摘要 VLM
[自动] [GITHUB_TRENDING]
11minhub 基于大模型的AI助理ChatGPT-on-WeChat:支持多平台接入与多模型
02-26 ChatGPT-on-WeChat LLM AI助理
[自动] [JUEJIN]
2minsticky_note_2 AI Agent接管手机:移动端观测技术与事件特征提取
02-26 AI Agent 移动端 UI 树解析
[自动] [HACKER_NEWS]
5minnewspaper Ferret-UI Lite:端侧轻量级GUI Agent构建经验
02-26 Ferret-UI GUI Agent 端侧模型
[自动] [BLOGS_PODCASTS]
4minmic 基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能照片搜索系统
02-26 AWS CDK Rekognition
[自动] [HACKER_NEWS]
4minnewspaper 首个完全通用的计算机动作模型
02-26 Agent LLM 计算机控制
[自动] [BLOGS_PODCASTS]
3minmic 基于AWS CDK集成Rekognition、Neptune与Bedrock的智能图片搜索系统
02-26 AWS CDK Rekognition
[自动] [HACKER_NEWS]
4minnewspaper 首个完全通用的计算机动作模型
02-26 通用模型 计算机控制 Agent
[自动] [ARXIV]
4minschool TG-ASR:基于并行门控交叉注意力的翻译引导低资源语音识别
02-26 ASR 语音识别 低资源学习
[自动] [ARXIV]
5minschool 任意模态下的多向量索引压缩方法
02-26 多向量索引 模态压缩 Late Interaction
[自动] [BLOGS_PODCASTS]
4minmic 基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能图片搜索系统
02-25 AWS CDK Rekognition
[自动] [HACKER_NEWS]
3minnewspaper 首个完全通用的计算机动作模型
02-25 计算机动作模型 通用模型 Agent
[自动] [ARXIV]
6minschool 多模态任意向量索引压缩技术
02-25 向量检索 多模态 索引压缩
[自动] [ARXIV]
4minschool VAUQ:面向LVLM自评估的视觉感知不确定性量化
02-25 LVLM 多模态 不确定性量化
[自动] [ARXIV]
4minschool 面向大规模视频推理的综合基准测试套件
02-25 视频推理 VBVR 基准测试
[自动] [ARXIV]
4minschool 面向大规模视频推理的综合基准测试套件
02-24 视频推理 VBVR 基准测试
[自动] [GITHUB_TRENDING]
10minhub 接入多平台的大模型 AI 助理框架
02-24 LLM ChatGPT Python
[自动] [JUEJIN]
2minsticky_note_2 大模型开发演进:从ChatGPT到多模态与A2A协作
02-24 LLM ChatGPT 多模态
[自动] [GITHUB_TRENDING]
14minhub Kirara-AI:支持多平台接入的多模态聊天机器人框架
02-24 聊天机器人 多模态 LLM
[自动] [HACKER_NEWS]
3minnewspaper 53款模型“洗车”测试:评估多模态AI在物理场景中的表现
02-24 多模态 物理场景 模型评估
[自动] [GITHUB_TRENDING]
10minhub Kirara-AI:支持多平台接入的多模态AI聊天机器人
02-23 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3.1 Pro:面向复杂任务的深度解答模型
02-23 Gemini Google LLM
[自动] [GITHUB_TRENDING]
11minhub kirara-ai:支持多平台接入的多模态AI聊天机器人框架
02-23 LLM 聊天机器人 Python
[自动] [GITHUB_TRENDING]
11minhub ChatGPT-On-WeChat:基于大语言模型的微信接入平台
02-23 ChatGPT 微信机器人 Python
[自动] [GITHUB_TRENDING]
11minhub kirara-ai:支持多平台接入的多模态AI聊天机器人
02-22 LLM 聊天机器人 多模态
[自动] [GITHUB_TRENDING]
11minhub CowAgent:支持多平台接入与多模型调用的自主任务规划 AI 助理
02-22 ChatGPT-on-WeChat CowAgent AI 助理
[自动] [GITHUB_TRENDING]
11minhub Kirara-AI:多模态聊天机器人,支持微信QQ接入与多模型工作流
02-22 聊天机器人 多模态 LLM
[自动] [GITHUB_TRENDING]
11minhub Kirara-ai:多模态AI聊天机器人,支持微信QQ与多模型
02-21 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
2minmic Gemini 3.1 Pro:面向复杂任务设计的智能模型
02-21 Gemini Google LLM
[自动] [GITHUB_TRENDING]
11minhub kirara-ai:多模态AI聊天机器人,支持多平台接入与工作流
02-21 LLM 聊天机器人 多模态
[自动] [GITHUB_TRENDING]
11minhub ChatGPT-on-WeChat:接入多平台与大模型的多模态AI助理
02-21 ChatGPT-on-WeChat AI助理 多模态
[自动] [JUEJIN]
1minsticky_note_2 谷歌AI购物助手技术架构与商业化路径解析
02-21 谷歌 AI购物助手 Gemini
[自动] [GITHUB_TRENDING]
11minhub kirara-ai:多模态聊天机器人框架,支持微信QQ及多模型
02-20 聊天机器人 Python LLM
[自动] [GITHUB_TRENDING]
11minhub CowAgent:支持多平台接入与多模型的自主任务规划 AI 助理
02-20 LLM Python Agent
[自动] [HACKER_NEWS]
5minnewspaper 谷歌发布 Gemini 2.5 Pro:支持 100 万上下文窗口
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
4minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
7minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-20 Gemini Google LLM
[自动] [HACKER_NEWS]
5minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-19 Gemini Google LLM
[自动] [HACKER_NEWS]
7minnewspaper 谷歌发布 Gemini 3.1 Pro 预览版
02-19 Gemini Google LLM
[自动] [HACKER_NEWS]
8minnewspaper 谷歌发布 Gemini 3.1 Pro 模型
02-19 Gemini Google LLM
[自动] [HACKER_NEWS]
5minnewspaper 谷歌发布 Gemini 3.1 模型
02-19 Google Gemini 模型发布
[自动] [BLOGS_PODCASTS]
3minmic Gemini应用集成Lyria 3模型,支持文本或图像生成30秒音轨
02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]
3minsticky_note_2 验证 DeepSeek-OCR:代码转 PDF 节省 40% Token
02-19 DeepSeek OCR Token优化
[自动] [BLOGS_PODCASTS]
2minmic Gemini应用集成Lyria 3模型,支持图文生成30秒音乐
02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]
3minsticky_note_2 Spring AI 多模态实战:构建图像理解应用
02-19 Spring AI 多模态 图像理解
[自动] [BLOGS_PODCASTS]
2minmic Gemini接入Lyria 3模型支持文字图像生成30秒音乐
02-19 Gemini Lyria 3 音乐生成
[自动] [JUEJIN]
3minsticky_note_2 Spring AI 多模态实战:构建图像理解应用
02-19 Spring AI 多模态 图像理解
[自动] [BLOGS_PODCASTS]
2minmic Gemini应用集成Lyria 3模型,支持文生30秒音乐
02-19 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
3minmic Gemini应用接入Lyria 3模型,支持图文生成30秒乐曲
02-19 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
2minmic Gemini接入Lyria 3模型,支持图文生成30秒音乐
02-18 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
2minmic Gemini应用集成Lyria 3模型,支持文图生成30秒音乐
02-18 Gemini Lyria 3 音乐生成
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3 Deep Think:推进科学与工程研究
02-17 Gemini 3 DeepMind Deep Think
[自动] [JUEJIN]
2minsticky_note_2 Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解
02-17 Qwen3.5 MoE 多模态
[自动] [ARXIV]
4minschool 延迟视觉摄入优化图文密集文档问答
02-17 多模态 文档问答 VLM
[自动] [ARXIV]
5minschool UniWeTok:统一二进制分词器支持2^128码本规模
02-17 UniWeTok 多模态 Tokenizer
[自动] [HACKER_NEWS]
6minnewspaper Qwen3.5:迈向原生多模态智能体
02-17 Qwen3.5 多模态 智能体
[自动] [ARXIV]
5minschool CoPE-VideoLM:基于编解码基元的高效视频语言模型
02-17 VideoLM 视频理解 多模态
[自动] [ARXIV]
4minschool CoPE-VideoLM:基于编解码基元的高效视频语言模型
02-16 VideoLM 多模态 视频理解
[自动] [HACKER_NEWS]
3minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
4minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
7minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
5minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [HACKER_NEWS]
6minnewspaper Qwen3.5:迈向原生多模态智能体
02-16 Qwen3.5 多模态 智能体
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展方法
02-16 多模态 思维链 测试时扩展
[自动] [ARXIV]
4minschool 扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐
02-15 VLA 具身智能 机器人
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展方法
02-15 多模态 思维链 测试时扩展
[自动] [JUEJIN]
4minsticky_note_2 Vercel AI SDK v6 新增 generateImage 函数:统一图像模型调用
02-15 Vercel AI SDK 图像生成 OpenAI
[自动] [GITHUB_TRENDING]
11minhub ChatGPT-on-WeChat:支持多平台接入与多模型配置的AI助理
02-14 ChatGPT-on-WeChat LLM Python
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展
02-14 多模态 思维链 测试时扩展
[自动] [HACKER_NEWS]
5minnewspaper Gemini 3 Deep Think 生成鹈鹕骑自行车 SVG 图像
02-14 Gemini 3 Deep Think SVG
[自动] [ARXIV]
4minschool 扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐
02-13 VLA 具身智能 机器人
[自动] [ARXIV]
4minschool UniT:统一多模态思维链测试时扩展方法
02-13 多模态 思维链 测试时扩展
[自动] [ARXIV]
4minschool KAN-FIF:基于样条参数化的轻量级气象卫星热带气旋估算模型
02-13 KAN 气象预测 热带气旋
[自动] [ARXIV]
4minschool 基于归一化流的高效分层目标条件强化学习
02-13 强化学习 分层强化学习 归一化流
[自动] [BLOGS_PODCASTS]
3minmic 亚马逊利用Nova模型自动化新履约中心运营就绪测试
02-12 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2 与 Seedance 2:中国生成式媒体进展
02-12 Qwen Image 2 Seedance 2 图像生成
[自动] [JUEJIN]
2minsticky_note_2 基于GLM-5与OpenClaw构建具备任务执行能力的AI伴侣
02-12 GLM-5 OpenClaw AI Agent
[自动] [BLOGS_PODCASTS]
3minmic 中国生成式媒体模型Qwen Image 2与Seedance 2发布
02-12 Qwen Image 2 Seedance 2 生成式媒体
[自动] [BLOGS_PODCASTS]
2minmic 亚马逊利用Nova模型自动化检测新履约中心组件
02-12 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2 与 Seedance 2:中国生成式媒体进展
02-12 Qwen Image 2 Seedance 2 文生图
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2 与 Seedance 2:中国生成式媒体模型进展
02-12 Qwen Image 2 Seedance 2 通义千问
[自动] [ARXIV]
2minschool 用于增强科学图表分析的智能代理
02-12 智能代理 科学图表 多模态
[自动] [BLOGS_PODCASTS]
3minmic Qwen Image 2与Seedance 2:中国生成式媒体模型进展
02-12 Qwen Image 2 Seedance 2 生成式媒体
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:面向复杂文档理解的多模态OCR模型
02-12 GLM-OCR 多模态 OCR
[自动] [BLOGS_PODCASTS]
3minmic 亚马逊利用Nova模型自动化新履约中心运营准备检测
02-11 Amazon Nova Amazon Bedrock 图像识别
[自动] [BLOGS_PODCASTS]
4minmic 中国生成式媒体模型Qwen Image 2与Seedance 2发布
02-11 Qwen Image 2 Seedance 2 文生图
[自动] [JUEJIN]
1minsticky_note_2 讯飞星火X2发布:纯国产算力大模型性能对标GPT
02-11 讯飞星火 国产算力 GPT
[自动] [BLOGS_PODCASTS]
2minmic Qwen Image 2与Seedance 2发布:中国生成式媒体表现强劲
02-11 Qwen Image 2 Seedance 2 通义千问
[自动] [BLOGS_PODCASTS]
2minmic How Amazon uses Amazon Nova models to automate operatio
02-11 Amazon Nova Amazon Bedrock 多模态
[自动] [HACKER_NEWS]
3minnewspaper GLM-OCR: Accurate × Fast × Comprehensive
02-11 GLM-OCR OCR 多模态
[自动] [HACKER_NEWS]
4minnewspaper GLM-OCR:兼顾准确度、速度与通用性的多模态大模型
02-11 GLM-OCR 多模态 OCR
[自动] [ARXIV]
2minschool Anagent For Enhancing Scientific Table & Figure Analysi
02-11 Anagent 多智能体 科学图表分析
[自动] [BLOGS_PODCASTS]
1minmic [AINews] Qwen Image 2 and Seedance 2
02-11 Qwen Image 2 Seedance 2 通义千问
[自动] [HACKER_NEWS]
4minnewspaper Qwen-Image-2.0:生成专业信息图表与逼真照片
02-10 Qwen 通义千问 文生图
[自动] [HACKER_NEWS]
4minnewspaper Qwen-Image-2.0:生成专业信息图与逼真照片
02-10 Qwen Qwen-Image-2.0 文生图
[自动] [HACKER_NEWS]
2minnewspaper Qwen-Image-2.0: Professional infographics, exquisite ph
02-10 Qwen Qwen-Image-2.0 文生图
[自动] [HACKER_NEWS]
2minnewspaper Qwen-Image-2.0:专业信息图表与逼真照片生成
02-10 Qwen Qwen-Image-2.0 文生图
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直观物理
02-09 VLM 直觉物理 强化学习
[自动] [ARXIV]
5minschool 共享LoRA子空间实现近乎严格的持续学习
02-09 持续学习 LoRA 灾难性遗忘
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直觉物理
02-08 VLM 直觉物理 多模态
[自动] [GITHUB_TRENDING]
10minhub 基于大模型的主动思考AI助理ChatGPT-on-Wechat
02-08 ChatGPT-on-Wechat LLM Agent
[自动] [GITHUB_TRENDING]
11minhub CowAgent:基于大模型的自主任务规划与多平台接入 AI 助理
02-07 LLM Agent Python
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直观物理
02-07 VLM 多模态 具身智能
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:基于多传感器数据生成驾驶场景
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
6minnewspaper Waymo 世界模型:利用生成式世界模型提升自动驾驶决策能力
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:自动驾驶场景生成与仿真应用
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:利用生成式世界模拟提升自动驾驶决策
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:自动驾驶场景生成与预测架构
02-07 Waymo 世界模型 自动驾驶
[自动] [HACKER_NEWS]
6minnewspaper Waymo 世界模型:端到端自动驾驶的仿真与预测架构
02-07 Waymo 世界模型 端到端
[自动] [GITHUB_TRENDING]
11minhub ChatGPT-on-WeChat:支持多模型与多平台接入的AI助理框架
02-07 ChatGPT-on-WeChat LLM AI助理
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直觉物理
02-06 VLM 直觉物理 强化学习
[自动] [GITHUB_TRENDING]
12minhub 基于大模型的主动思考型 AI 助理 CowAgent 支持多平台接入
02-06 LLM Agent Python
[自动] [HACKER_NEWS]
4minnewspaper Waymo 世界模型:利用生成式视频预测驾驶场景
02-06 Waymo 世界模型 生成式视频
[自动] [HACKER_NEWS]
4minnewspaper Waymo世界模型:自动驾驶仿真的新前沿
02-06 Waymo 自动驾驶 世界模型
[自动] [HACKER_NEWS]
6minnewspaper Waymo世界模型:自动驾驶仿真的新前沿
02-06 Waymo 自动驾驶 世界模型
[自动] [ARXIV]
4minschool 受限群组相对策略优化
02-06 GRPO 强化学习 策略优化
[自动] [ARXIV]
5minschool RRAttention:基于轮询移位的动态块稀疏注意力机制
02-06 RRAttention 稀疏注意力 长上下文
[自动] [ARXIV]
4minschool 强化注意力学习:通过奖励机制优化视觉注意力模型
02-06 强化学习 多模态 注意力机制
[自动] [ARXIV]
4minschool 多层交叉注意力机制在多模态上下文学习中具有可证明的最优性
02-06 多模态 上下文学习 ICL
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [ARXIV]
3minschool 多层交叉注意力被证明是多模态上下文学习的最优解
02-05 多模态 上下文学习 ICL
[自动] [GITHUB_TRENDING]
10minhub CowAgent:基于大模型的AI助理,支持主动思考与多平台接入
02-05 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 多模态 检索 Nemotron
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [BLOGS_PODCASTS]
4minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [GITHUB_TRENDING]
11minhub CowAgent:基于大模型的自主任务规划与多平台接入助手
02-05 LLM Agent Python
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-05 Nemotron ColEmbed ViDoRe
[自动] [ARXIV]
5minschool PrevizWhiz:结合粗略3D场景与2D视频引导生成式预演
02-05 AIGC 视频生成 3D场景
[自动] [ARXIV]
5minschool PrevizWhiz:结合粗略3D场景与2D视频引导生成视频预演
02-04 视频生成 3D视觉 PrevizWhiz
[自动] [BLOGS_PODCASTS]
3minmic Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型
02-04 Nemotron ColEmbed ViDoRe
[自动] [GITHUB_TRENDING]
11minhub CowAgent:具备主动思考与长期记忆的大模型 AI 助理
02-04 LLM Agent Python
[自动] [HACKER_NEWS]
6minnewspaper Agent Skills:大模型智能体的技能评估框架
02-03 Agent LLM 评估框架
[自动] [BLOGS_PODCASTS]
4minmic xAI 发布 Grok Imagine API:对标 SOTA 视频模型与 SpaceX 合并前瞻
02-03 xAI Grok 视频生成
[自动] [ARXIV]
3minschool HERMES:基于视觉语言模型的长尾自动驾驶端到端风险感知系统
02-03 自动驾驶 VLM 长尾场景
[自动] [ARXIV]
4minschool DeALOG:基于日志中介的去中心化多智能体推理框架
02-03 Multi-Agent 去中心化 日志中介
[自动] [ARXIV]
5minschool VideoGPA:提取几何先验实现三维一致视频生成
02-02 视频生成 3D一致性 扩散模型
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准
02-02 UEval 多模态 基准测试
[自动] [BLOGS_PODCASTS]
3minmic xAI巩固前沿实验室地位并拟与SpaceX合并
02-01 xAI SpaceX Grok
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准评测
02-01 UEval 多模态 基准评测
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、缩放定律与中国发展
02-01 LLM 智能体 缩放定律
[自动] [GITHUB_TRENDING]
10minhub 多模态 AI 聊天机器人 Kirara AI:支持多平台接入与主流模型
02-01 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频及百并发Agent管理
02-01 Moonshot AI Kimi k2.5 开源模型
2026年一月 30 篇
类型阅读条目
[自动] [ARXIV]
4minschool UEval:统一多模态生成基准
01-31 多模态 UEval 基准测试
[自动] [GITHUB_TRENDING]
11minhub Kirara-AI:多模态聊天机器人框架,支持多平台接入与工作流
01-31 LLM 聊天机器人 多模态
[自动] [BLOGS_PODCASTS]
3minmic Kimi K2.5:半价超越Sonnet 4.5,支持原生多模态与百并发Agent
01-31 Kimi k1.5 Moonshot AI 开源模型
[自动] [GITHUB_TRENDING]
16minhub kirara-ai:支持多平台接入的多模态AI聊天机器人框架
01-31 聊天机器人 多模态 LLM
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解
01-31 Kimi K2.5 技术报告 长上下文
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频与百并发Agent管理
01-31 Moonshot Kimi K2.5 SOTA
[自动] [ARXIV]
3minschool UEval:统一多模态生成基准
01-30 UEval 多模态 统一模型
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频及百并发Agent管理
01-30 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]
11minhub Kirara-AI:支持多平台接入的多模态聊天机器人框架
01-30 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic Moonshot K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理
01-30 Moonshot Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]
4minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理
01-30 Moonshot AI Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频
01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]
11minhub Kirara-ai:支持多平台接入的多模态AI聊天机器人
01-29 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:半价超越Sonnet 4.5,原生图文视频与百并发Agent管理
01-29 Kimi k2.5 Moonshot AI 月之暗面
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文与百并发智能体
01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [BLOGS_PODCASTS]
3minmic Moonshot Kimi K25:成本减半超越Sonnet 45,原生图文视频与百并发Agent管理
01-29 Moonshot AI Kimi k2.5 开源模型
[自动] [GITHUB_TRENDING]
11minhub kirara-ai:支持多平台接入的多模态AI聊天机器人框架
01-29 聊天机器人 多模态 LLM
[自动] [BLOGS_PODCASTS]
2minmic Moonshot Kimi K2.5:半价超越Sonnet 4.5,支持原生图文视频与百并发智能体
01-29 Moonshot AI Kimi k2.5 Sonnet 4.5
[自动] [GITHUB_TRENDING]
10minhub 🚀 lss233/kirara-ai:AI驱动的超强项目!GitHub必看!✨
01-28 聊天机器人 多模态 Python
[自动] [GITHUB_TRENDING]
10minhub 🚀 kirara-ai:AI绘画神器!lss233打造,效率翻倍!
01-27 Kirara AI 聊天机器人 多模态
[自动] [ARXIV]
4minschool 🔍脑电+情感=超强分析!MEG数据解锁情绪新维度
01-27 MEG 情感分析 脑机接口
[自动] [HACKER_NEWS]
3minnewspaper 🚀Kimi K2.5震撼开源!视觉SOTA级智能模型,性能炸裂!
01-27 Kimi K2.5 Moonshot AI 视觉模型
[自动] [HACKER_NEWS]
4minnewspaper 🚀Kimi K2.5重磅开源!视觉SOTA级Agent模型,AI新王炸?
01-27 Kimi Moonshot AI K1.5
[自动] [HACKER_NEWS]
3minnewspaper Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥
01-27 Kimi K2.5 多模态
[自动] [BLOGS_PODCASTS]
3minmic AssetOpsBench:打破AI Agent评测与工业现实的壁垒!🚀
01-26 AI Agent AssetOpsBench 工业智能
[自动] [ARXIV]
5minschool AgentDrive:首个开放基准!🚗 LLM生成场景驱动Agent智能推理
01-26 AgentDrive 自动驾驶 基准测试
[自动] [HACKER_NEWS]
4minnewspaper 🔥ChatGPT WebUI重磅升级!530模型+MCP+全能RAG,AI能力原地起飞!
01-26 ChatGPT WebUI LLM
[自动] [HACKER_NEWS]
3minnewspaper 💥文本为王!揭秘AI时代最被低估的核心价值!
01-26 LLM RAG 语义检索
[自动] [ARXIV]
6minschool 🤖抽屉打不开?揭秘零样本组合动作识别中的“物体捷径”!
01-25 计算机视觉 零样本学习 动作识别
[自动] [ARXIV]
5minschool 🔥PyraTok!视频生成神器:语言对齐金字塔Tokenizer震撼来袭!
01-25 PyraTok 视频生成 视频理解