目录
多模态
条目:193
2026年三月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 03-01
VLM
视觉语言模型
报告偏差 |
[自动]
[GITHUB_TRENDING] | 11min | hub
基于大模型的AI助理CowAgent:支持多平台接入与多模型处理 03-01
LLM
Agent
Python |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 03-01
多模态
视觉语言模型
最优传输 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览 03-01
Gemini
图像生成
SOTA |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览 03-01
Gemini
图像生成
SOTA |
2026年二月
158 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
首个 Gemini 3.1 模型 Nano Banana 2 预览:SOTA 图像生成 02-28
Gemini
Nano Banana 2
图像生成 |
[自动]
[GITHUB_TRENDING] | 11min | hub
zhayujie/chatgpt-on-wechat:接入多平台与模型的多模态AI助手框架 02-28
ChatGPT
微信机器人
多模态 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-28
多模态
视觉语言模型
最优传输 |
[自动]
[ARXIV] | 4min | school
SeeThrough3D:文本生成图像中的遮挡感知三维控制 02-28
SeeThrough3D
文本生成图像
3D控制 |
[自动]
[JUEJIN] | 3min | sticky_note_2
EverMemOS:开源Agent长时记忆系统,LoCoMo推理准确率93% 02-28
Agent
长时记忆
EverMemOS |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Gemini 3.1 Flash Image Preview 登场:全新 SOTA 图像生成模型 02-28
Gemini 3.1
Nano Banana 2
图像生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-28
图像生成
图像编辑
Nano Banana 2 |
[自动]
[ARXIV] | 4min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 02-27
VLM
视觉语言模型
报告偏差 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-27
多模态
视觉语言模型
最优传输 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Gemini 2.0 Flash 登场:成新一代 SOTA 图像生成模型 02-27
Gemini
Google
图像生成 |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:基于大模型的自主思考与任务规划 AI 助理 02-27
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-27
图像生成
图像编辑
Nano Banana 2 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览 02-27
Gemini
Google
图像生成 |
[自动]
[GITHUB_TRENDING] | 11min | hub
基于大模型的AI助理CowAgent:主动思考、任务规划与多平台接入 02-27
LLM
Agent
Python |
[自动]
[ARXIV] | 5min | school
面向高效高分辨率GUI智能体的时空令牌剪枝 02-27
GUI Agent
Token Pruning
Qwen2-VL |
[自动]
[ARXIV] | 4min | school
MovieTeller:工具增强且ID一致的渐进式摘要生成 02-27
MovieTeller
视频摘要
VLM |
[自动]
[GITHUB_TRENDING] | 11min | hub
基于大模型的AI助理ChatGPT-on-WeChat:支持多平台接入与多模型 02-26
ChatGPT-on-WeChat
LLM
AI助理 |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI Agent接管手机:移动端观测技术与事件特征提取 02-26
AI Agent
移动端
UI 树解析 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Ferret-UI Lite:端侧轻量级GUI Agent构建经验 02-26
Ferret-UI
GUI Agent
端侧模型 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能照片搜索系统 02-26
AWS
CDK
Rekognition |
[自动]
[HACKER_NEWS] | 4min | newspaper
首个完全通用的计算机动作模型 02-26
Agent
LLM
计算机控制 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
基于AWS CDK集成Rekognition、Neptune与Bedrock的智能图片搜索系统 02-26
AWS
CDK
Rekognition |
[自动]
[HACKER_NEWS] | 4min | newspaper
首个完全通用的计算机动作模型 02-26
通用模型
计算机控制
Agent |
[自动]
[ARXIV] | 4min | school
TG-ASR:基于并行门控交叉注意力的翻译引导低资源语音识别 02-26
ASR
语音识别
低资源学习 |
[自动]
[ARXIV] | 5min | school
任意模态下的多向量索引压缩方法 02-26
多向量索引
模态压缩
Late Interaction |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能图片搜索系统 02-25
AWS
CDK
Rekognition |
[自动]
[HACKER_NEWS] | 3min | newspaper
首个完全通用的计算机动作模型 02-25
计算机动作模型
通用模型
Agent |
[自动]
[ARXIV] | 6min | school
多模态任意向量索引压缩技术 02-25
向量检索
多模态
索引压缩 |
[自动]
[ARXIV] | 4min | school
VAUQ:面向LVLM自评估的视觉感知不确定性量化 02-25
LVLM
多模态
不确定性量化 |
[自动]
[ARXIV] | 4min | school
面向大规模视频推理的综合基准测试套件 02-25
视频推理
VBVR
基准测试 |
[自动]
[ARXIV] | 4min | school
面向大规模视频推理的综合基准测试套件 02-24
视频推理
VBVR
基准测试 |
[自动]
[GITHUB_TRENDING] | 10min | hub
接入多平台的大模型 AI 助理框架 02-24
LLM
ChatGPT
Python |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型开发演进:从ChatGPT到多模态与A2A协作 02-24
LLM
ChatGPT
多模态 |
[自动]
[GITHUB_TRENDING] | 14min | hub
Kirara-AI:支持多平台接入的多模态聊天机器人框架 02-24
聊天机器人
多模态
LLM |
[自动]
[HACKER_NEWS] | 3min | newspaper
53款模型“洗车”测试:评估多模态AI在物理场景中的表现 02-24
多模态
物理场景
模型评估 |
[自动]
[GITHUB_TRENDING] | 10min | hub
Kirara-AI:支持多平台接入的多模态AI聊天机器人 02-23
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3.1 Pro:面向复杂任务的深度解答模型 02-23
Gemini
Google
LLM |
[自动]
[GITHUB_TRENDING] | 11min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人框架 02-23
LLM
聊天机器人
Python |
[自动]
[GITHUB_TRENDING] | 11min | hub
ChatGPT-On-WeChat:基于大语言模型的微信接入平台 02-23
ChatGPT
微信机器人
Python |
[自动]
[GITHUB_TRENDING] | 11min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人 02-22
LLM
聊天机器人
多模态 |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:支持多平台接入与多模型调用的自主任务规划 AI 助理 02-22
ChatGPT-on-WeChat
CowAgent
AI 助理 |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-AI:多模态聊天机器人,支持微信QQ接入与多模型工作流 02-22
聊天机器人
多模态
LLM |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-ai:多模态AI聊天机器人,支持微信QQ与多模型 02-21
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini 3.1 Pro:面向复杂任务设计的智能模型 02-21
Gemini
Google
LLM |
[自动]
[GITHUB_TRENDING] | 11min | hub
kirara-ai:多模态AI聊天机器人,支持多平台接入与工作流 02-21
LLM
聊天机器人
多模态 |
[自动]
[GITHUB_TRENDING] | 11min | hub
ChatGPT-on-WeChat:接入多平台与大模型的多模态AI助理 02-21
ChatGPT-on-WeChat
AI助理
多模态 |
[自动]
[JUEJIN] | 1min | sticky_note_2
谷歌AI购物助手技术架构与商业化路径解析 02-21
谷歌
AI购物助手
Gemini |
[自动]
[GITHUB_TRENDING] | 11min | hub
kirara-ai:多模态聊天机器人框架,支持微信QQ及多模型 02-20
聊天机器人
Python
LLM |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:支持多平台接入与多模型的自主任务规划 AI 助理 02-20
LLM
Python
Agent |
[自动]
[HACKER_NEWS] | 5min | newspaper
谷歌发布 Gemini 2.5 Pro:支持 100 万上下文窗口 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 7min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-19
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 7min | newspaper
谷歌发布 Gemini 3.1 Pro 预览版 02-19
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 8min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-19
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 5min | newspaper
谷歌发布 Gemini 3.1 模型 02-19
Google
Gemini
模型发布 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini应用集成Lyria 3模型,支持文本或图像生成30秒音轨 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[JUEJIN] | 3min | sticky_note_2
验证 DeepSeek-OCR:代码转 PDF 节省 40% Token 02-19
DeepSeek
OCR
Token优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini应用集成Lyria 3模型,支持图文生成30秒音乐 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[JUEJIN] | 3min | sticky_note_2
Spring AI 多模态实战:构建图像理解应用 02-19
Spring AI
多模态
图像理解 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini接入Lyria 3模型支持文字图像生成30秒音乐 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[JUEJIN] | 3min | sticky_note_2
Spring AI 多模态实战:构建图像理解应用 02-19
Spring AI
多模态
图像理解 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini应用集成Lyria 3模型,支持文生30秒音乐 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini应用接入Lyria 3模型,支持图文生成30秒乐曲 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini接入Lyria 3模型,支持图文生成30秒音乐 02-18
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini应用集成Lyria 3模型,支持文图生成30秒音乐 02-18
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3 Deep Think:推进科学与工程研究 02-17
Gemini 3
DeepMind
Deep Think |
[自动]
[JUEJIN] | 2min | sticky_note_2
Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解 02-17
Qwen3.5
MoE
多模态 |
[自动]
[ARXIV] | 4min | school
延迟视觉摄入优化图文密集文档问答 02-17
多模态
文档问答
VLM |
[自动]
[ARXIV] | 5min | school
UniWeTok:统一二进制分词器支持2^128码本规模 02-17
UniWeTok
多模态
Tokenizer |
[自动]
[HACKER_NEWS] | 6min | newspaper
Qwen3.5:迈向原生多模态智能体 02-17
Qwen3.5
多模态
智能体 |
[自动]
[ARXIV] | 5min | school
CoPE-VideoLM:基于编解码基元的高效视频语言模型 02-17
VideoLM
视频理解
多模态 |
[自动]
[ARXIV] | 4min | school
CoPE-VideoLM:基于编解码基元的高效视频语言模型 02-16
VideoLM
多模态
视频理解 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 7min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-16
多模态
思维链
测试时扩展 |
[自动]
[ARXIV] | 4min | school
扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐 02-15
VLA
具身智能
机器人 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-15
多模态
思维链
测试时扩展 |
[自动]
[JUEJIN] | 4min | sticky_note_2
Vercel AI SDK v6 新增 generateImage 函数:统一图像模型调用 02-15
Vercel AI SDK
图像生成
OpenAI |
[自动]
[GITHUB_TRENDING] | 11min | hub
ChatGPT-on-WeChat:支持多平台接入与多模型配置的AI助理 02-14
ChatGPT-on-WeChat
LLM
Python |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展 02-14
多模态
思维链
测试时扩展 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Gemini 3 Deep Think 生成鹈鹕骑自行车 SVG 图像 02-14
Gemini 3
Deep Think
SVG |
[自动]
[ARXIV] | 4min | school
扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐 02-13
VLA
具身智能
机器人 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-13
多模态
思维链
测试时扩展 |
[自动]
[ARXIV] | 4min | school
KAN-FIF:基于样条参数化的轻量级气象卫星热带气旋估算模型 02-13
KAN
气象预测
热带气旋 |
[自动]
[ARXIV] | 4min | school
基于归一化流的高效分层目标条件强化学习 02-13
强化学习
分层强化学习
归一化流 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营就绪测试 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2 与 Seedance 2:中国生成式媒体进展 02-12
Qwen Image 2
Seedance 2
图像生成 |
[自动]
[JUEJIN] | 2min | sticky_note_2
基于GLM-5与OpenClaw构建具备任务执行能力的AI伴侣 02-12
GLM-5
OpenClaw
AI Agent |
[自动]
[BLOGS_PODCASTS] | 3min | mic
中国生成式媒体模型Qwen Image 2与Seedance 2发布 02-12
Qwen Image 2
Seedance 2
生成式媒体 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
亚马逊利用Nova模型自动化检测新履约中心组件 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2 与 Seedance 2:中国生成式媒体进展 02-12
Qwen Image 2
Seedance 2
文生图 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2 与 Seedance 2:中国生成式媒体模型进展 02-12
Qwen Image 2
Seedance 2
通义千问 |
[自动]
[ARXIV] | 2min | school
用于增强科学图表分析的智能代理 02-12
智能代理
科学图表
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2与Seedance 2:中国生成式媒体模型进展 02-12
Qwen Image 2
Seedance 2
生成式媒体 |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:面向复杂文档理解的多模态OCR模型 02-12
GLM-OCR
多模态
OCR |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营准备检测 02-11
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
中国生成式媒体模型Qwen Image 2与Seedance 2发布 02-11
Qwen Image 2
Seedance 2
文生图 |
[自动]
[JUEJIN] | 1min | sticky_note_2
讯飞星火X2发布:纯国产算力大模型性能对标GPT 02-11
讯飞星火
国产算力
GPT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Qwen Image 2与Seedance 2发布:中国生成式媒体表现强劲 02-11
Qwen Image 2
Seedance 2
通义千问 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
How Amazon uses Amazon Nova models to automate operatio 02-11
Amazon Nova
Amazon Bedrock
多模态 |
[自动]
[HACKER_NEWS] | 3min | newspaper
GLM-OCR: Accurate × Fast × Comprehensive 02-11
GLM-OCR
OCR
多模态 |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:兼顾准确度、速度与通用性的多模态大模型 02-11
GLM-OCR
多模态
OCR |
[自动]
[ARXIV] | 2min | school
Anagent For Enhancing Scientific Table & Figure Analysi 02-11
Anagent
多智能体
科学图表分析 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
[AINews] Qwen Image 2 and Seedance 2 02-11
Qwen Image 2
Seedance 2
通义千问 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen-Image-2.0:生成专业信息图表与逼真照片 02-10
Qwen
通义千问
文生图 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen-Image-2.0:生成专业信息图与逼真照片 02-10
Qwen
Qwen-Image-2.0
文生图 |
[自动]
[HACKER_NEWS] | 2min | newspaper
Qwen-Image-2.0: Professional infographics, exquisite ph 02-10
Qwen
Qwen-Image-2.0
文生图 |
[自动]
[HACKER_NEWS] | 2min | newspaper
Qwen-Image-2.0:专业信息图表与逼真照片生成 02-10
Qwen
Qwen-Image-2.0
文生图 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-09
VLM
直觉物理
强化学习 |
[自动]
[ARXIV] | 5min | school
共享LoRA子空间实现近乎严格的持续学习 02-09
持续学习
LoRA
灾难性遗忘 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直觉物理 02-08
VLM
直觉物理
多模态 |
[自动]
[GITHUB_TRENDING] | 10min | hub
基于大模型的主动思考AI助理ChatGPT-on-Wechat 02-08
ChatGPT-on-Wechat
LLM
Agent |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:基于大模型的自主任务规划与多平台接入 AI 助理 02-07
LLM
Agent
Python |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-07
VLM
多模态
具身智能 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:基于多传感器数据生成驾驶场景 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo 世界模型:利用生成式世界模型提升自动驾驶决策能力 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:自动驾驶场景生成与仿真应用 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:利用生成式世界模拟提升自动驾驶决策 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:自动驾驶场景生成与预测架构 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo 世界模型:端到端自动驾驶的仿真与预测架构 02-07
Waymo
世界模型
端到端 |
[自动]
[GITHUB_TRENDING] | 11min | hub
ChatGPT-on-WeChat:支持多模型与多平台接入的AI助理框架 02-07
ChatGPT-on-WeChat
LLM
AI助理 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直觉物理 02-06
VLM
直觉物理
强化学习 |
[自动]
[GITHUB_TRENDING] | 12min | hub
基于大模型的主动思考型 AI 助理 CowAgent 支持多平台接入 02-06
LLM
Agent
Python |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:利用生成式视频预测驾驶场景 02-06
Waymo
世界模型
生成式视频 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo世界模型:自动驾驶仿真的新前沿 02-06
Waymo
自动驾驶
世界模型 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo世界模型:自动驾驶仿真的新前沿 02-06
Waymo
自动驾驶
世界模型 |
[自动]
[ARXIV] | 4min | school
受限群组相对策略优化 02-06
GRPO
强化学习
策略优化 |
[自动]
[ARXIV] | 5min | school
RRAttention:基于轮询移位的动态块稀疏注意力机制 02-06
RRAttention
稀疏注意力
长上下文 |
[自动]
[ARXIV] | 4min | school
强化注意力学习:通过奖励机制优化视觉注意力模型 02-06
强化学习
多模态
注意力机制 |
[自动]
[ARXIV] | 4min | school
多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06
多模态
上下文学习
ICL |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[ARXIV] | 3min | school
多层交叉注意力被证明是多模态上下文学习的最优解 02-05
多模态
上下文学习
ICL |
[自动]
[GITHUB_TRENDING] | 10min | hub
CowAgent:基于大模型的AI助理,支持主动思考与多平台接入 02-05
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
多模态
检索
Nemotron |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:基于大模型的自主任务规划与多平台接入助手 02-05
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[ARXIV] | 5min | school
PrevizWhiz:结合粗略3D场景与2D视频引导生成式预演 02-05
AIGC
视频生成
3D场景 |
[自动]
[ARXIV] | 5min | school
PrevizWhiz:结合粗略3D场景与2D视频引导生成视频预演 02-04
视频生成
3D视觉
PrevizWhiz |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-04
Nemotron
ColEmbed
ViDoRe |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:具备主动思考与长期记忆的大模型 AI 助理 02-04
LLM
Agent
Python |
[自动]
[HACKER_NEWS] | 6min | newspaper
Agent Skills:大模型智能体的技能评估框架 02-03
Agent
LLM
评估框架 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
xAI 发布 Grok Imagine API:对标 SOTA 视频模型与 SpaceX 合并前瞻 02-03
xAI
Grok
视频生成 |
[自动]
[ARXIV] | 3min | school
HERMES:基于视觉语言模型的长尾自动驾驶端到端风险感知系统 02-03
自动驾驶
VLM
长尾场景 |
[自动]
[ARXIV] | 4min | school
DeALOG:基于日志中介的去中心化多智能体推理框架 02-03
Multi-Agent
去中心化
日志中介 |
[自动]
[ARXIV] | 5min | school
VideoGPA:提取几何先验实现三维一致视频生成 02-02
视频生成
3D一致性
扩散模型 |
[自动]
[ARXIV] | 4min | school
UEval:统一多模态生成基准 02-02
UEval
多模态
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
xAI巩固前沿实验室地位并拟与SpaceX合并 02-01
xAI
SpaceX
Grok |
[自动]
[ARXIV] | 4min | school
UEval:统一多模态生成基准评测 02-01
UEval
多模态
基准评测 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、缩放定律与中国发展 02-01
LLM
智能体
缩放定律 |
[自动]
[GITHUB_TRENDING] | 10min | hub
多模态 AI 聊天机器人 Kirara AI:支持多平台接入与主流模型 02-01
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频及百并发Agent管理 02-01
Moonshot AI
Kimi k2.5
开源模型 |
2026年一月
30 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
UEval:统一多模态生成基准 01-31
多模态
UEval
基准测试 |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-AI:多模态聊天机器人框架,支持多平台接入与工作流 01-31
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Kimi K2.5:半价超越Sonnet 4.5,支持原生多模态与百并发Agent 01-31
Kimi k1.5
Moonshot AI
开源模型 |
[自动]
[GITHUB_TRENDING] | 16min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人框架 01-31
聊天机器人
多模态
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解 01-31
Kimi K2.5
技术报告
长上下文 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频与百并发Agent管理 01-31
Moonshot
Kimi K2.5
SOTA |
[自动]
[ARXIV] | 3min | school
UEval:统一多模态生成基准 01-30
UEval
多模态
统一模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频及百并发Agent管理 01-30
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-AI:支持多平台接入的多模态聊天机器人框架 01-30
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理 01-30
Moonshot
Kimi k2.5
开源模型 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理 01-30
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频 01-29
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-ai:支持多平台接入的多模态AI聊天机器人 01-29
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:半价超越Sonnet 4.5,原生图文视频与百并发Agent管理 01-29
Kimi k2.5
Moonshot AI
月之暗面 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文与百并发智能体 01-29
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K25:成本减半超越Sonnet 45,原生图文视频与百并发Agent管理 01-29
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[GITHUB_TRENDING] | 11min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人框架 01-29
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Moonshot Kimi K2.5:半价超越Sonnet 4.5,支持原生图文视频与百并发智能体 01-29
Moonshot AI
Kimi k2.5
Sonnet 4.5 |
[自动]
[GITHUB_TRENDING] | 10min | hub
🚀 lss233/kirara-ai:AI驱动的超强项目!GitHub必看!✨ 01-28
聊天机器人
多模态
Python |
[自动]
[GITHUB_TRENDING] | 10min | hub
🚀 kirara-ai:AI绘画神器!lss233打造,效率翻倍! 01-27
Kirara AI
聊天机器人
多模态 |
[自动]
[ARXIV] | 4min | school
🔍脑电+情感=超强分析!MEG数据解锁情绪新维度 01-27
MEG
情感分析
脑机接口 |
[自动]
[HACKER_NEWS] | 3min | newspaper
🚀Kimi K2.5震撼开源!视觉SOTA级智能模型,性能炸裂! 01-27
Kimi K2.5
Moonshot AI
视觉模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
🚀Kimi K2.5重磅开源!视觉SOTA级Agent模型,AI新王炸? 01-27
Kimi
Moonshot AI
K1.5 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥 01-27
Kimi
K2.5
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AssetOpsBench:打破AI Agent评测与工业现实的壁垒!🚀 01-26
AI Agent
AssetOpsBench
工业智能 |
[自动]
[ARXIV] | 5min | school
AgentDrive:首个开放基准!🚗 LLM生成场景驱动Agent智能推理 01-26
AgentDrive
自动驾驶
基准测试 |
[自动]
[HACKER_NEWS] | 4min | newspaper
🔥ChatGPT WebUI重磅升级!530模型+MCP+全能RAG,AI能力原地起飞! 01-26
ChatGPT
WebUI
LLM |
[自动]
[HACKER_NEWS] | 3min | newspaper
💥文本为王!揭秘AI时代最被低估的核心价值! 01-26
LLM
RAG
语义检索 |
[自动]
[ARXIV] | 6min | school
🤖抽屉打不开?揭秘零样本组合动作识别中的“物体捷径”! 01-25
计算机视觉
零样本学习
动作识别 |
[自动]
[ARXIV] | 5min | school
🔥PyraTok!视频生成神器:语言对齐金字塔Tokenizer震撼来袭! 01-25
PyraTok
视频生成
视频理解 |
无匹配条目