目录
多模态
条目:291
2026年四月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[GITHUB_TRENDING] | 4min | hub
CowAgent:开源多平台AI助理框架,支持十余种模型 04-15
AI助理
多平台接入
多模型支持 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
Google Gemma 4小型多模态开源模型性能大幅提升 04-03
Gemma 4
多模态
Google |
2026年三月
101 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用RAG将文本图像转化为视频的方案 03-20
AI视频
VRAG
AmazonBedrock |
[自动]
[ARXIV] | 3min | school
Loc3R-VLM语言驱动定位与3D推理视觉模型 03-20
视觉语言模型
三维推理
语言驱动定位 |
[自动]
[ARXIV] | 3min | school
Loc3R-VLM:基于语言提示的3D定位与推理模型 03-19
视觉语言模型
3D定位
语言提示 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Introducing GPT-5.4 mini and nano 03-18
GPT-5.4
OpenAI
小模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI发布GPT-4o mini与nano:更小更快,优化编码与多模态推理 03-18
OpenAI
GPT-4o
模型发布 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI发布GPT-4o mini与nano:更小更快,优化代码与多模态 03-17
OpenAI
GPT-4o
模型发布 |
[自动]
[ARXIV] | 3min | school
强化学习激发过程推理能力提升机器人操控性能 03-17
机器人操控
强化学习
过程推理 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI发布GPT-5.4 mini与nano:优化编程与多模态推理 03-17
OpenAI
GPT-5.4
模型发布 |
[自动]
[ARXIV] | 3min | school
AC-Foley:参考音频引导的声学迁移视频生成音频模型 03-17
多模态
V2A
视频生成音频 |
[自动]
[ARXIV] | 2min | school
RS-WorldModel:遥感理解与未来预测统一模型 03-17
遥感
世界模型
时空预测 |
[自动]
[ARXIV] | 3min | school
Visual-ERM:面向视觉等价性的奖励建模 03-17
Visual-ERM
视觉奖励模型
LVLM |
[自动]
[ARXIV] | 3min | school
Visual-ERM:视觉等效性奖励建模方法 03-16
Visual-ERM
奖励模型
RLHF |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Multimodal embeddings at scale: AI data lake for media 03-16
多模态
向量搜索
视频检索 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用 Amazon Nova 构建多模态视频语义搜索系统 03-16
Amazon Nova
多模态
语义搜索 |
[自动]
[ARXIV] | 3min | school
SciMDR:科学多模态文档推理基准测试与进展 03-16
SciMDR
多模态
文档推理 |
[自动]
[ARXIV] | 3min | school
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning 03-16
EndoCoT
扩散模型
DiT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
构建多模态视频搜索系统:基于Amazon Nova与OpenSearch 03-15
多模态
视频搜索
向量检索 |
[自动]
[ARXIV] | 4min | school
SciMDR:科学多模态文档推理基准与进展 03-15
SciMDR
多模态
文档推理 |
[自动]
[ARXIV] | 4min | school
EndoCoT:扩散模型内生思维链推理扩展方法 03-15
扩散模型
EndoCoT
思维链 |
[自动]
[GITHUB_TRENDING] | 2min | hub
Kirara-AI:多模态聊天机器人框架,支持多平台接入与工作流 03-15
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统 03-14
多模态
向量检索
语义搜索 |
[自动]
[ARXIV] | 4min | school
SciMDR:科学多模态文档推理基准测试与进展 03-14
SciMDR
多模态
文档推理 |
[自动]
[GITHUB_TRENDING] | 2min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人 03-14
Chatbot
LLM
Python |
[自动]
[ARXIV] | 4min | school
EndoCoT:扩散模型内生思维链推理扩展方法 03-14
扩散模型
EndoCoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
构建多模态视频搜索系统:基于Amazon Nova与OpenSearch 03-14
多模态
视频搜索
语义搜索 |
[自动]
[GITHUB_TRENDING] | 2min | hub
基于大模型的AI助理CowAgent:支持主动思考与多平台接入 03-14
LLM
Agent
Python |
[自动]
[GITHUB_TRENDING] | 3min | hub
Kirara-AI:多模态聊天机器人框架,支持多平台接入与主流模型 03-14
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
基于Amazon Nova与OpenSearch构建可扩展多模态视频语义搜索系统 03-14
多模态
向量搜索
语义搜索 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
基于Amazon Nova与OpenSearch构建可扩展多模态视频搜索系统 03-13
多模态
视频搜索
语义搜索 |
[自动]
[ARXIV] | 3min | school
SciMDR:科学多模态文档推理基准与进展 03-13
SciMDR
多模态
文档推理 |
[自动]
[GITHUB_TRENDING] | 2min | hub
kirara-ai:多模态AI聊天机器人,支持多平台接入与主流大模型 03-13
聊天机器人
多模态
LLM |
[自动]
[ARXIV] | 3min | school
EndoCoT:扩散模型内生思维链推理扩展方法 03-13
扩散模型
EndoCoT
思维链 |
[自动]
[GITHUB_TRENDING] | 1min | hub
ChatGPT-on-WeChat:接入多平台的大模型AI助理框架 03-13
ChatGPT
AI助理
Agent |
[自动]
[BLOGS_PODCASTS] | 3min | mic
构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统 03-13
多模态
语义搜索
向量检索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
构建多模态视频搜索系统:利用 Amazon Nova 和 OpenSearch 实现语义检索 03-13
多模态
视频搜索
语义检索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Multimodal embeddings at scale: AI data lake for media 03-13
多模态
向量搜索
语义检索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
基于Amazon Nova与OpenSearch构建可扩展多模态视频搜索系统 03-13
多模态
向量搜索
语义搜索 |
[自动]
[ARXIV] | 3min | school
V2M-Zero:零样本时间对齐视频配乐生成模型 03-13
V2M-Zero
视频配乐
零样本学习 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于文本提示检测卫星影像中任意目标 03-12
遥感
计算机视觉
目标检测 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用Amazon Nova构建多模态视频语义搜索系统 03-12
多模态
向量搜索
语义搜索 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
构建基于Amazon Nova与OpenSearch的多模态视频语义检索系统 03-12
多模态
语义检索
向量搜索 |
[自动]
[ARXIV] | 3min | school
V2M-Zero:零样本时序对齐视频配乐生成 03-12
V2M-Zero
视频配乐
零样本学习 |
[自动]
[ARXIV] | 3min | school
AI能否像艺术史学家一样解读视觉语言模型的艺术风格识别机制 03-12
VLM
视觉语言模型
艺术风格 |
[自动]
[ARXIV] | 3min | school
从语义到像素:用于分层视觉理解的粗到细掩码自编码器 03-12
计算机视觉
自监督学习
掩码自编码器 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于文本提示的卫星影像目标检测 03-11
目标检测
卫星影像
多模态 |
[自动]
[HACKER_NEWS] | 2min | newspaper
TADA:通过文本-声学同步实现快速可靠的语音生成 03-11
TADA
语音生成
TTS |
[自动]
[HACKER_NEWS] | 1min | newspaper
TADA:通过文本-声学同步实现快速可靠的语音生成 03-11
TADA
语音生成
TTS |
[自动]
[HACKER_NEWS] | 1min | newspaper
TADA:通过文本-声学同步实现快速可靠的语音生成 03-11
TADA
语音生成
TTS |
[自动]
[GITHUB_TRENDING] | 2min | hub
CowAgent:支持多平台接入与多模态交互的自主任务规划 AI 助理 03-11
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Granite 4.0 10亿参数多模态语音模型:紧凑高效,适配边缘计算 03-11
Granite 4.0
语音模型
多模态 |
[自动]
[GITHUB_TRENDING] | 1min | hub
CowAgent:主动思考与任务规划的AI助理,支持多平台接入 03-10
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Granite 4.0 10亿参数多模态语音模型:紧凑高效,适配边缘端 03-10
Granite 4.0
语音模型
多模态 |
[自动]
[ARXIV] | 3min | school
MM-TS:面向长尾数据对比学习的多模态温控与边界调度 03-10
对比学习
多模态
长尾分布 |
[自动]
[ARXIV] | 1min | school
BEVLM:将LLM语义知识蒸馏至鸟瞰图表示 03-10
BEVLM
自动驾驶
LLM |
[自动]
[ARXIV] | 4min | school
BEVLM:将LLM语义知识蒸馏至鸟瞰图表征 03-09
BEVLM
自动驾驶
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
谷歌技术专家解析:AI如何理解视觉搜索 03-09
视觉搜索
计算机视觉
CNN |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Granite 4.0 10亿参数多模态语音模型:紧凑高效,支持边缘部署 03-09
Granite 4.0
语音模型
多模态 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI技术解析:视觉搜索如何理解图像内容 03-09
计算机视觉
图像识别
视觉搜索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI发布GPT-5.4:面向专业工作,支持百万token上下文 03-09
OpenAI
GPT-5.4
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI 视觉搜索技术解析:如何理解图像内容 03-09
计算机视觉
深度学习
神经网络 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-09
计算机视觉
多模态
深度学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI技术解析:计算机视觉如何理解图像搜索 03-09
计算机视觉
图像搜索
多模态 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-08
视觉搜索
计算机视觉
图像识别 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Phi-4多模态推理模型训练经验与技术解析 03-08
Phi-4
多模态
推理模型 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Phi-4多模态推理模型的训练经验与技术解析 03-08
Phi-4
多模态
推理模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索背后的技术原理 03-07
视觉搜索
多模态
嵌入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI视觉搜索技术解析:如何理解图像内容 03-07
计算机视觉
图像识别
视觉搜索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
谷歌二月发布Gemini 3.1 Pro与Nano Banana 2 03-07
Google
Gemini 1.5 Pro
Gemini Nano |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-06
视觉搜索
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AI如何理解视觉搜索:Ask a Techspert解析 03-06
视觉搜索
多模态
计算机视觉 |
[自动]
[HACKER_NEWS] | 1min | newspaper
OpenAI发布GPT-5.4模型升级推理与多模态能力 03-06
OpenAI
GPT-5.4
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AI技术解析:计算机视觉如何理解图像搜索 03-06
计算机视觉
多模态
生成式 AI |
[自动]
[ARXIV] | 3min | school
TaxonRL:基于中间奖励强化学习的可解释细粒度视觉推理 03-06
TaxonRL
强化学习
细粒度分类 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Ask a Techspert:AI如何理解视觉搜索 03-06
计算机视觉
视觉搜索
深度学习 |
[自动]
[ARXIV] | 3min | school
TaxonRL:基于中间奖励的可解释细粒度视觉推理 03-05
TaxonRL
强化学习
细粒度视觉推理 |
[自动]
[JUEJIN] | 2min | sticky_note_2
LangChain 实现图片 OCR 与多模态 RAG 数据读取 03-05
LangChain
RAG
OCR |
[自动]
[BLOGS_PODCASTS] | 3min | mic
利用 Amazon Nova 基础模型增强联络中心分析能力 03-05
Amazon Nova
联络中心
呼叫分析 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:技术规格与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解 03-04
OpenAI
GPT-5.3
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[GITHUB_TRENDING] | 2min | hub
CowAgent:基于大模型的主动思考型 AI 助理,支持接入多平台与多模型 03-04
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[ARXIV] | 3min | school
自适应置信度正则化用于多模态失效检测 03-04
多模态
失效检测
置信度 |
[自动]
[ARXIV] | 3min | school
自适应置信度正则化用于多模态失效检测 03-03
多模态
失效检测
自动驾驶 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-03
GPT-5.3
OpenAI
系统卡 |
[自动]
[GITHUB_TRENDING] | 2min | hub
ChatGPT-on-WeChat:接入多平台与大模型的多模态AI助理框架 03-03
ChatGPT-on-WeChat
CowAgent
Python |
[自动]
[ARXIV] | 3min | school
基于大规模真实手写数学数据评估AI阅卷性能 03-03
AI阅卷
手写识别
OCR |
[自动]
[ARXIV] | 4min | school
MC-Search:基于结构化长推理链的多模态智能体搜索评估与增强 03-03
多模态
MLLM
智能体 |
[自动]
[ARXIV] | 4min | school
模式寻优与均值寻优结合实现快速长视频生成 03-03
视频生成
扩散模型
Transformer |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览 03-02
Gemini
图像生成
SOTA |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini 2.0 Flash 登场:超越 GPT-4o,成新 SOTA 图像生成模型 03-02
Gemini
Google
SOTA |
[自动]
[GITHUB_TRENDING] | 2min | hub
CowAgent:支持多平台接入与多模型的主动思考型 AI 助理 03-02
LLM
Agent
Python |
[自动]
[ARXIV] | 3min | school
规模无法克服语用学:报告偏见对视觉语言推理的影响 03-02
VLM
多模态
报告偏见 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 03-02
多模态
视觉语言模型
最优传输 |
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 03-01
VLM
视觉语言模型
报告偏差 |
[自动]
[GITHUB_TRENDING] | 2min | hub
基于大模型的AI助理CowAgent:多平台接入与多模型处理 03-01
LLM
Agent
Python |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 03-01
多模态
SOTAlign
最优传输 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览 03-01
Gemini
图像生成
SOTA |
[自动]
[HACKER_NEWS] | 1min | newspaper
面向智能体的音频工具包 03-01
Agent
Audio
Toolkit |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 2.5 Pro与Nano Banana 2:SOTA文生图模型与图像预览 03-01
Gemini
Google
文生图 |
[自动]
[GITHUB_TRENDING] | 1min | hub
ChatGPT-on-wechat:支持多平台接入的AI助理框架 03-01
ChatGPT-on-wechat
LLM
AI助理 |
2026年二月
158 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
首个 Gemini 3.1 模型 Nano Banana 2 预览:SOTA 图像生成 02-28
Gemini
Nano Banana 2
图像生成 |
[自动]
[GITHUB_TRENDING] | 1min | hub
zhayujie/chatgpt-on-wechat:接入多平台与模型的多模态AI助手框架 02-28
ChatGPT
微信机器人
多模态 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-28
多模态
视觉语言模型
最优传输 |
[自动]
[ARXIV] | 3min | school
SeeThrough3D:文本生成图像中的遮挡感知三维控制 02-28
SeeThrough3D
文本生成图像
3D控制 |
[自动]
[JUEJIN] | 2min | sticky_note_2
EverMemOS:开源Agent长时记忆系统,LoCoMo推理准确率93% 02-28
Agent
长时记忆
EverMemOS |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3.1 Flash Image Preview 登场:全新 SOTA 图像生成模型 02-28
Gemini 3.1
Nano Banana 2
图像生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-28
图像生成
图像编辑
Nano Banana 2 |
[自动]
[ARXIV] | 3min | school
规模难以克服语用学:报告偏差对视觉语言推理的影响 02-27
VLM
视觉语言模型
报告偏差 |
[自动]
[ARXIV] | 3min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-27
多模态
视觉语言模型
最优传输 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Gemini 2.0 Flash 登场:成新一代 SOTA 图像生成模型 02-27
Gemini
Google
图像生成 |
[自动]
[GITHUB_TRENDING] | 1min | hub
CowAgent:基于大模型的自主思考与任务规划 AI 助理 02-27
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-27
图像生成
图像编辑
Nano Banana 2 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nano Banana 2:Gemini 3.1 Flash 图像生成模型预览 02-27
Gemini
Google
图像生成 |
[自动]
[GITHUB_TRENDING] | 2min | hub
基于大模型的AI助理CowAgent:主动思考、任务规划与多平台接入 02-27
LLM
Agent
Python |
[自动]
[ARXIV] | 4min | school
面向高效高分辨率GUI智能体的时空令牌剪枝 02-27
GUI Agent
Token Pruning
Qwen2-VL |
[自动]
[ARXIV] | 3min | school
MovieTeller:工具增强且ID一致的渐进式摘要生成 02-27
MovieTeller
视频摘要
VLM |
[自动]
[GITHUB_TRENDING] | 1min | hub
基于大模型的AI助理ChatGPT-on-WeChat:支持多平台接入与多模型 02-26
ChatGPT-on-WeChat
LLM
AI助理 |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI Agent接管手机:移动端观测技术与事件特征提取 02-26
AI Agent
移动端
UI 树解析 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Ferret-UI Lite:端侧轻量级GUI Agent构建经验 02-26
Ferret-UI
GUI Agent
端侧模型 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能照片搜索系统 02-26
AWS
CDK
Rekognition |
[自动]
[HACKER_NEWS] | 1min | newspaper
首个完全通用的计算机动作模型 02-26
Agent
LLM
计算机控制 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
基于AWS CDK集成Rekognition、Neptune与Bedrock的智能图片搜索系统 02-26
AWS
CDK
Rekognition |
[自动]
[HACKER_NEWS] | 1min | newspaper
首个完全通用的计算机动作模型 02-26
通用模型
计算机控制
Agent |
[自动]
[ARXIV] | 4min | school
TG-ASR:基于并行门控交叉注意力的翻译引导低资源语音识别 02-26
ASR
语音识别
低资源学习 |
[自动]
[ARXIV] | 1min | school
任意模态下的多向量索引压缩方法 02-26
多向量索引
模态压缩
Late Interaction |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 AWS CDK 集成 Rekognition、Neptune 与 Bedrock 构建智能图片搜索系统 02-25
AWS
CDK
Rekognition |
[自动]
[HACKER_NEWS] | 1min | newspaper
首个完全通用的计算机动作模型 02-25
计算机动作模型
通用模型
Agent |
[自动]
[ARXIV] | 1min | school
多模态任意向量索引压缩技术 02-25
向量检索
多模态
索引压缩 |
[自动]
[ARXIV] | 3min | school
VAUQ:面向LVLM自评估的视觉感知不确定性量化 02-25
LVLM
多模态
不确定性量化 |
[自动]
[ARXIV] | 3min | school
面向大规模视频推理的综合基准测试套件 02-25
视频推理
VBVR
基准测试 |
[自动]
[ARXIV] | 3min | school
面向大规模视频推理的综合基准测试套件 02-24
视频推理
VBVR
基准测试 |
[自动]
[GITHUB_TRENDING] | 2min | hub
接入多平台的大模型 AI 助理框架 02-24
LLM
ChatGPT
Python |
[自动]
[JUEJIN] | 1min | sticky_note_2
大模型开发演进:从ChatGPT到多模态与A2A协作 02-24
LLM
ChatGPT
多模态 |
[自动]
[GITHUB_TRENDING] | 7min | hub
Kirara-AI:支持多平台接入的多模态聊天机器人框架 02-24
聊天机器人
多模态
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试:评估多模态AI在物理场景中的表现 02-24
多模态
物理场景
模型评估 |
[自动]
[GITHUB_TRENDING] | 4min | hub
Kirara-AI:支持多平台接入的多模态AI聊天机器人 02-23
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3.1 Pro:面向复杂任务的深度解答模型 02-23
Gemini
Google
LLM |
[自动]
[GITHUB_TRENDING] | 2min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人框架 02-23
LLM
聊天机器人
Python |
[自动]
[GITHUB_TRENDING] | 1min | hub
ChatGPT-On-WeChat:基于大语言模型的微信接入平台 02-23
ChatGPT
微信机器人
Python |
[自动]
[GITHUB_TRENDING] | 2min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人 02-22
LLM
聊天机器人
多模态 |
[自动]
[GITHUB_TRENDING] | 2min | hub
CowAgent:支持多平台接入与多模型调用的自主任务规划 AI 助理 02-22
ChatGPT-on-WeChat
CowAgent
AI 助理 |
[自动]
[GITHUB_TRENDING] | 2min | hub
Kirara-AI:多模态聊天机器人,支持微信QQ接入与多模型工作流 02-22
聊天机器人
多模态
LLM |
[自动]
[GITHUB_TRENDING] | 2min | hub
Kirara-ai:多模态AI聊天机器人,支持微信QQ与多模型 02-21
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini 3.1 Pro:面向复杂任务设计的智能模型 02-21
Gemini
Google
LLM |
[自动]
[GITHUB_TRENDING] | 8min | hub
kirara-ai:多模态AI聊天机器人,支持多平台接入与工作流 02-21
LLM
聊天机器人
多模态 |
[自动]
[GITHUB_TRENDING] | 1min | hub
ChatGPT-on-WeChat:接入多平台与大模型的多模态AI助理 02-21
ChatGPT-on-WeChat
AI助理
多模态 |
[自动]
[JUEJIN] | 1min | sticky_note_2
谷歌AI购物助手技术架构与商业化路径解析 02-21
谷歌
AI购物助手
Gemini |
[自动]
[GITHUB_TRENDING] | 4min | hub
kirara-ai:多模态聊天机器人框架,支持微信QQ及多模型 02-20
聊天机器人
Python
LLM |
[自动]
[GITHUB_TRENDING] | 1min | hub
CowAgent:支持多平台接入与多模型的自主任务规划 AI 助理 02-20
LLM
Python
Agent |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 2.5 Pro:支持 100 万上下文窗口 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-20
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-19
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 3.1 Pro 预览版 02-19
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 3.1 Pro 模型 02-19
Gemini
Google
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Gemini 3.1 模型 02-19
Google
Gemini
模型发布 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini应用集成Lyria 3模型,支持文本或图像生成30秒音轨 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[JUEJIN] | 3min | sticky_note_2
验证 DeepSeek-OCR:代码转 PDF 节省 40% Token 02-19
DeepSeek
OCR
Token优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini应用集成Lyria 3模型,支持图文生成30秒音乐 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[JUEJIN] | 3min | sticky_note_2
Spring AI 多模态实战:构建图像理解应用 02-19
Spring AI
多模态
图像理解 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini接入Lyria 3模型支持文字图像生成30秒音乐 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[JUEJIN] | 3min | sticky_note_2
Spring AI 多模态实战:构建图像理解应用 02-19
Spring AI
多模态
图像理解 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini应用集成Lyria 3模型,支持文生30秒音乐 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini应用接入Lyria 3模型,支持图文生成30秒乐曲 02-19
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini接入Lyria 3模型,支持图文生成30秒音乐 02-18
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Gemini应用集成Lyria 3模型,支持文图生成30秒音乐 02-18
Gemini
Lyria 3
音乐生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3 Deep Think:推进科学与工程研究 02-17
Gemini 3
DeepMind
Deep Think |
[自动]
[JUEJIN] | 2min | sticky_note_2
Qwen3.5-397B-A17B:极致稀疏MoE架构与多模态能力详解 02-17
Qwen3.5
MoE
多模态 |
[自动]
[ARXIV] | 4min | school
延迟视觉摄入优化图文密集文档问答 02-17
多模态
文档问答
VLM |
[自动]
[ARXIV] | 4min | school
UniWeTok:统一二进制分词器支持2^128码本规模 02-17
UniWeTok
多模态
Tokenizer |
[自动]
[HACKER_NEWS] | 6min | newspaper
Qwen3.5:迈向原生多模态智能体 02-17
Qwen3.5
多模态
智能体 |
[自动]
[ARXIV] | 5min | school
CoPE-VideoLM:基于编解码基元的高效视频语言模型 02-17
VideoLM
视频理解
多模态 |
[自动]
[ARXIV] | 4min | school
CoPE-VideoLM:基于编解码基元的高效视频语言模型 02-16
VideoLM
多模态
视频理解 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 7min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Qwen3.5:迈向原生多模态智能体 02-16
Qwen3.5
多模态
智能体 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-16
多模态
思维链
测试时扩展 |
[自动]
[ARXIV] | 4min | school
扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐 02-15
VLA
具身智能
机器人 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-15
多模态
思维链
测试时扩展 |
[自动]
[JUEJIN] | 4min | sticky_note_2
Vercel AI SDK v6 新增 generateImage 函数:统一图像模型调用 02-15
Vercel AI SDK
图像生成
OpenAI |
[自动]
[GITHUB_TRENDING] | 10min | hub
ChatGPT-on-WeChat:支持多平台接入与多模型配置的AI助理 02-14
ChatGPT-on-WeChat
LLM
Python |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展 02-14
多模态
思维链
测试时扩展 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Gemini 3 Deep Think 生成鹈鹕骑自行车 SVG 图像 02-14
Gemini 3
Deep Think
SVG |
[自动]
[ARXIV] | 4min | school
扩展验证比扩展策略学习更能有效实现视觉-语言-动作对齐 02-13
VLA
具身智能
机器人 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-13
多模态
思维链
测试时扩展 |
[自动]
[ARXIV] | 4min | school
KAN-FIF:基于样条参数化的轻量级气象卫星热带气旋估算模型 02-13
KAN
气象预测
热带气旋 |
[自动]
[ARXIV] | 4min | school
基于归一化流的高效分层目标条件强化学习 02-13
强化学习
分层强化学习
归一化流 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营就绪测试 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2 与 Seedance 2:中国生成式媒体进展 02-12
Qwen Image 2
Seedance 2
图像生成 |
[自动]
[JUEJIN] | 2min | sticky_note_2
基于GLM-5与OpenClaw构建具备任务执行能力的AI伴侣 02-12
GLM-5
OpenClaw
AI Agent |
[自动]
[BLOGS_PODCASTS] | 3min | mic
中国生成式媒体模型Qwen Image 2与Seedance 2发布 02-12
Qwen Image 2
Seedance 2
生成式媒体 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
亚马逊利用Nova模型自动化检测新履约中心组件 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2 与 Seedance 2:中国生成式媒体进展 02-12
Qwen Image 2
Seedance 2
文生图 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2 与 Seedance 2:中国生成式媒体模型进展 02-12
Qwen Image 2
Seedance 2
通义千问 |
[自动]
[ARXIV] | 2min | school
用于增强科学图表分析的智能代理 02-12
智能代理
科学图表
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Qwen Image 2与Seedance 2:中国生成式媒体模型进展 02-12
Qwen Image 2
Seedance 2
生成式媒体 |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:面向复杂文档理解的多模态OCR模型 02-12
GLM-OCR
多模态
OCR |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营准备检测 02-11
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
中国生成式媒体模型Qwen Image 2与Seedance 2发布 02-11
Qwen Image 2
Seedance 2
文生图 |
[自动]
[JUEJIN] | 1min | sticky_note_2
讯飞星火X2发布:纯国产算力大模型性能对标GPT 02-11
讯飞星火
国产算力
GPT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Qwen Image 2与Seedance 2发布:中国生成式媒体表现强劲 02-11
Qwen Image 2
Seedance 2
通义千问 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
How Amazon uses Amazon Nova models to automate operatio 02-11
Amazon Nova
Amazon Bedrock
多模态 |
[自动]
[HACKER_NEWS] | 3min | newspaper
GLM-OCR: Accurate × Fast × Comprehensive 02-11
GLM-OCR
OCR
多模态 |
[自动]
[HACKER_NEWS] | 4min | newspaper
GLM-OCR:兼顾准确度、速度与通用性的多模态大模型 02-11
GLM-OCR
多模态
OCR |
[自动]
[ARXIV] | 2min | school
Anagent For Enhancing Scientific Table & Figure Analysi 02-11
Anagent
多智能体
科学图表分析 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
[AINews] Qwen Image 2 and Seedance 2 02-11
Qwen Image 2
Seedance 2
通义千问 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen-Image-2.0:生成专业信息图表与逼真照片 02-10
Qwen
通义千问
文生图 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen-Image-2.0:生成专业信息图与逼真照片 02-10
Qwen
Qwen-Image-2.0
文生图 |
[自动]
[HACKER_NEWS] | 2min | newspaper
Qwen-Image-2.0: Professional infographics, exquisite ph 02-10
Qwen
Qwen-Image-2.0
文生图 |
[自动]
[HACKER_NEWS] | 2min | newspaper
Qwen-Image-2.0:专业信息图表与逼真照片生成 02-10
Qwen
Qwen-Image-2.0
文生图 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-09
VLM
直觉物理
强化学习 |
[自动]
[ARXIV] | 5min | school
共享LoRA子空间实现近乎严格的持续学习 02-09
持续学习
LoRA
灾难性遗忘 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直觉物理 02-08
VLM
直觉物理
多模态 |
[自动]
[GITHUB_TRENDING] | 10min | hub
基于大模型的主动思考AI助理ChatGPT-on-Wechat 02-08
ChatGPT-on-Wechat
LLM
Agent |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:基于大模型的自主任务规划与多平台接入 AI 助理 02-07
LLM
Agent
Python |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-07
VLM
多模态
具身智能 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:基于多传感器数据生成驾驶场景 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo 世界模型:利用生成式世界模型提升自动驾驶决策能力 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:自动驾驶场景生成与仿真应用 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:利用生成式世界模拟提升自动驾驶决策 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:自动驾驶场景生成与预测架构 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo 世界模型:端到端自动驾驶的仿真与预测架构 02-07
Waymo
世界模型
端到端 |
[自动]
[GITHUB_TRENDING] | 11min | hub
ChatGPT-on-WeChat:支持多模型与多平台接入的AI助理框架 02-07
ChatGPT-on-WeChat
LLM
AI助理 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直觉物理 02-06
VLM
直觉物理
强化学习 |
[自动]
[GITHUB_TRENDING] | 11min | hub
基于大模型的主动思考型 AI 助理 CowAgent 支持多平台接入 02-06
LLM
Agent
Python |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:利用生成式视频预测驾驶场景 02-06
Waymo
世界模型
生成式视频 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Waymo世界模型:自动驾驶仿真的新前沿 02-06
Waymo
自动驾驶
世界模型 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo世界模型:自动驾驶仿真的新前沿 02-06
Waymo
自动驾驶
世界模型 |
[自动]
[ARXIV] | 4min | school
受限群组相对策略优化 02-06
GRPO
强化学习
策略优化 |
[自动]
[ARXIV] | 5min | school
RRAttention:基于轮询移位的动态块稀疏注意力机制 02-06
RRAttention
稀疏注意力
长上下文 |
[自动]
[ARXIV] | 4min | school
强化注意力学习:通过奖励机制优化视觉注意力模型 02-06
强化学习
多模态
注意力机制 |
[自动]
[ARXIV] | 4min | school
多层交叉注意力机制在多模态上下文学习中具有可证明的最优性 02-06
多模态
上下文学习
ICL |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[ARXIV] | 3min | school
多层交叉注意力被证明是多模态上下文学习的最优解 02-05
多模态
上下文学习
ICL |
[自动]
[GITHUB_TRENDING] | 9min | hub
CowAgent:基于大模型的AI助理,支持主动思考与多平台接入 02-05
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
多模态
检索
Nemotron |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:基于大模型的自主任务规划与多平台接入助手 02-05
LLM
Agent
Python |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-05
Nemotron
ColEmbed
ViDoRe |
[自动]
[ARXIV] | 5min | school
PrevizWhiz:结合粗略3D场景与2D视频引导生成式预演 02-05
AIGC
视频生成
3D场景 |
[自动]
[ARXIV] | 5min | school
PrevizWhiz:结合粗略3D场景与2D视频引导生成视频预演 02-04
视频生成
3D视觉
PrevizWhiz |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron ColEmbed V2:基于ViDoRe V3的多模态检索模型 02-04
Nemotron
ColEmbed
ViDoRe |
[自动]
[GITHUB_TRENDING] | 11min | hub
CowAgent:具备主动思考与长期记忆的大模型 AI 助理 02-04
LLM
Agent
Python |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent Skills:大模型智能体的技能评估框架 02-03
Agent
LLM
评估框架 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
xAI 发布 Grok Imagine API:对标 SOTA 视频模型与 SpaceX 合并前瞻 02-03
xAI
Grok
视频生成 |
[自动]
[ARXIV] | 3min | school
HERMES:基于视觉语言模型的长尾自动驾驶端到端风险感知系统 02-03
自动驾驶
VLM
长尾场景 |
[自动]
[ARXIV] | 4min | school
DeALOG:基于日志中介的去中心化多智能体推理框架 02-03
Multi-Agent
去中心化
日志中介 |
[自动]
[ARXIV] | 5min | school
VideoGPA:提取几何先验实现三维一致视频生成 02-02
视频生成
3D一致性
扩散模型 |
[自动]
[ARXIV] | 4min | school
UEval:统一多模态生成基准 02-02
UEval
多模态
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
xAI巩固前沿实验室地位并拟与SpaceX合并 02-01
xAI
SpaceX
Grok |
[自动]
[ARXIV] | 4min | school
UEval:统一多模态生成基准评测 02-01
UEval
多模态
基准评测 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、缩放定律与中国发展 02-01
LLM
智能体
缩放定律 |
[自动]
[GITHUB_TRENDING] | 10min | hub
多模态 AI 聊天机器人 Kirara AI:支持多平台接入与主流模型 02-01
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频及百并发Agent管理 02-01
Moonshot AI
Kimi k2.5
开源模型 |
2026年一月
30 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
UEval:统一多模态生成基准 01-31
多模态
UEval
基准测试 |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-AI:多模态聊天机器人框架,支持多平台接入与工作流 01-31
LLM
聊天机器人
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Kimi K2.5:半价超越Sonnet 4.5,支持原生多模态与百并发Agent 01-31
Kimi k1.5
Moonshot AI
开源模型 |
[自动]
[GITHUB_TRENDING] | 16min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人框架 01-31
聊天机器人
多模态
LLM |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:长上下文与多模态推理能力详解 01-31
Kimi K2.5
技术报告
长上下文 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频与百并发Agent管理 01-31
Moonshot
Kimi K2.5
SOTA |
[自动]
[ARXIV] | 3min | school
UEval:统一多模态生成基准 01-30
UEval
多模态
统一模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频及百并发Agent管理 01-30
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[GITHUB_TRENDING] | 11min | hub
Kirara-AI:支持多平台接入的多模态聊天机器人框架 01-30
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理 01-30
Moonshot
Kimi k2.5
开源模型 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,原生图文视频与百并发Agent管理 01-30
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文视频 01-29
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[GITHUB_TRENDING] | 10min | hub
Kirara-ai:支持多平台接入的多模态AI聊天机器人 01-29
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:半价超越Sonnet 4.5,原生图文视频与百并发Agent管理 01-29
Kimi k2.5
Moonshot AI
月之暗面 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K2.5:成本减半超越Sonnet 4.5,支持原生图文与百并发智能体 01-29
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Moonshot Kimi K25:成本减半超越Sonnet 45,原生图文视频与百并发Agent管理 01-29
Moonshot AI
Kimi k2.5
开源模型 |
[自动]
[GITHUB_TRENDING] | 10min | hub
kirara-ai:支持多平台接入的多模态AI聊天机器人框架 01-29
聊天机器人
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Moonshot Kimi K2.5:半价超越Sonnet 4.5,支持原生图文视频与百并发智能体 01-29
Moonshot AI
Kimi k2.5
Sonnet 4.5 |
[自动]
[GITHUB_TRENDING] | 10min | hub
🚀 lss233/kirara-ai:AI驱动的超强项目!GitHub必看!✨ 01-28
聊天机器人
多模态
Python |
[自动]
[GITHUB_TRENDING] | 10min | hub
🚀 kirara-ai:AI绘画神器!lss233打造,效率翻倍! 01-27
Kirara AI
聊天机器人
多模态 |
[自动]
[ARXIV] | 4min | school
🔍脑电+情感=超强分析!MEG数据解锁情绪新维度 01-27
MEG
情感分析
脑机接口 |
[自动]
[HACKER_NEWS] | 3min | newspaper
🚀Kimi K2.5震撼开源!视觉SOTA级智能模型,性能炸裂! 01-27
Kimi K2.5
Moonshot AI
视觉模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
🚀Kimi K2.5重磅开源!视觉SOTA级Agent模型,AI新王炸? 01-27
Kimi
Moonshot AI
K1.5 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥 01-27
Kimi
K2.5
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AssetOpsBench:打破AI Agent评测与工业现实的壁垒!🚀 01-26
AI Agent
AssetOpsBench
工业智能 |
[自动]
[ARXIV] | 5min | school
AgentDrive:首个开放基准!🚗 LLM生成场景驱动Agent智能推理 01-26
AgentDrive
自动驾驶
基准测试 |
[自动]
[HACKER_NEWS] | 4min | newspaper
🔥ChatGPT WebUI重磅升级!530模型+MCP+全能RAG,AI能力原地起飞! 01-26
ChatGPT
WebUI
LLM |
[自动]
[HACKER_NEWS] | 3min | newspaper
💥文本为王!揭秘AI时代最被低估的核心价值! 01-26
LLM
RAG
语义检索 |
[自动]
[ARXIV] | 6min | school
🤖抽屉打不开?揭秘零样本组合动作识别中的“物体捷径”! 01-25
计算机视觉
零样本学习
动作识别 |
[自动]
[ARXIV] | 5min | school
🔥PyraTok!视频生成神器:语言对齐金字塔Tokenizer震撼来袭! 01-25
PyraTok
视频生成
视频理解 |
无匹配条目