目录
计算机视觉
条目:132
2026年四月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 1min | school
弹性测试时训练实现快速空间记忆 04-09
弹性测试时训练
快速空间记忆
长序列重建 |
2026年三月
67 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
3D形状语义层次分词方法 03-20
3D生成
分词方法
语义分词 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
生成式AI优化Wi-Fi视觉系统实现穿墙物体探测 03-19
生成式AI
Wi-Fi感知
物体探测 |
[自动]
[ARXIV] | 3min | school
LoST:三维形状语义层级标记化方法 03-19
3D形状
语义标记化
层级表示 |
[自动]
[ARXIV] | 3min | school
Loc3R-VLM:基于语言提示的3D定位与推理模型 03-19
视觉语言模型
3D定位
语言提示 |
[自动]
[ARXIV] | 4min | school
BiGain:面向生成与分类任务的统一令牌压缩 03-16
扩散模型
令牌压缩
DiT |
[自动]
[ARXIV] | 2min | school
Spatial-TTT:基于测试时训练的流式视觉空间智能 03-16
Spatial-TTT
测试时训练
TTT |
[自动]
[ARXIV] | 3min | school
潜在色彩子空间:高维混沌中的涌现秩序 03-15
文生图
FLUX.1
VAE |
[自动]
[ARXIV] | 3min | school
Spatial-TTT:基于测试时训练的流式视觉空间智能 03-15
计算机视觉
测试时训练
流式处理 |
[自动]
[ARXIV] | 3min | school
Spatial-TTT:基于测试时训练的流式视觉空间智能 03-14
Spatial-TTT
测试时训练
空间智能 |
[自动]
[ARXIV] | 2min | school
潜在色彩子空间:高维混沌中的涌现秩序 03-13
FLUX.1
文生图
VAE |
[自动]
[ARXIV] | 3min | school
Spatial-TTT:基于测试时训练的流式视觉空间智能 03-13
计算机视觉
测试时训练
流式推理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于文本提示检测卫星影像中任意目标 03-12
遥感
计算机视觉
目标检测 |
[自动]
[ARXIV] | 3min | school
AI能否像艺术史学家一样解读视觉语言模型的艺术风格识别机制 03-12
VLM
视觉语言模型
艺术风格 |
[自动]
[ARXIV] | 3min | school
从语义到像素:用于分层视觉理解的粗到细掩码自编码器 03-12
计算机视觉
自监督学习
掩码自编码器 |
[自动]
[ARXIV] | 3min | school
从语义到像素:粗到细掩码自编码器实现分层视觉理解 03-11
计算机视觉
自监督学习
掩码自编码器 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于文本提示的卫星影像目标检测 03-11
目标检测
卫星影像
多模态 |
[自动]
[JUEJIN] | 1min | sticky_note_2
美国国家实验室:30张图3D重建化工厂气体泄漏 03-11
NeRF
3D重建
气体检测 |
[自动]
[ARXIV] | 4min | school
尺度空间扩散模型 03-11
扩散模型
计算机视觉
尺度空间 |
[自动]
[ARXIV] | 3min | school
尺度空间扩散模型 03-10
扩散模型
计算机视觉
Flexi-UNet |
[自动]
[GITHUB_TRENDING] | 7min | hub
RapidAI/RapidOCR:支持多推理引擎的跨语言OCR工具包 03-10
OCR
RapidOCR
Python |
[自动]
[HACKER_NEWS] | 1min | newspaper
DeepMind与伯克利提出LoGeR:实现超长视频3D重建 03-10
DeepMind
伯克利
LoGeR |
[自动]
[HACKER_NEWS] | 1min | newspaper
DeepMind与伯克利提出LoGeR:实现超长视频3D重建 03-10
DeepMind
伯克利
LoGeR |
[自动]
[ARXIV] | 3min | school
MM-TS:面向长尾数据对比学习的多模态温控与边界调度 03-10
对比学习
多模态
长尾分布 |
[自动]
[ARXIV] | 4min | school
SCOPE:场景上下文增量式少样本3D分割 03-10
3D分割
少样本学习
增量学习 |
[自动]
[ARXIV] | 1min | school
BEVLM:将LLM语义知识蒸馏至鸟瞰图表示 03-10
BEVLM
自动驾驶
LLM |
[自动]
[ARXIV] | 4min | school
SCOPE:场景上下文增量式少样本3D分割 03-09
3D分割
少样本学习
增量学习 |
[自动]
[ARXIV] | 4min | school
BEVLM:将LLM语义知识蒸馏至鸟瞰图表征 03-09
BEVLM
自动驾驶
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
谷歌技术专家解析:AI如何理解视觉搜索 03-09
视觉搜索
计算机视觉
CNN |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI技术解析:视觉搜索如何理解图像内容 03-09
计算机视觉
图像识别
视觉搜索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI 视觉搜索技术解析:如何理解图像内容 03-09
计算机视觉
深度学习
神经网络 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-09
计算机视觉
多模态
深度学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI技术解析:计算机视觉如何理解图像搜索 03-09
计算机视觉
图像搜索
多模态 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-08
视觉搜索
计算机视觉
图像识别 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索背后的技术原理 03-07
视觉搜索
多模态
嵌入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI视觉搜索技术解析:如何理解图像内容 03-07
计算机视觉
图像识别
视觉搜索 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-06
视觉搜索
多模态
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI如何理解视觉搜索:技术原理解析 03-06
计算机视觉
CNN
视觉搜索 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AI视觉搜索技术解析:如何理解图像内容 03-06
计算机视觉
多模态AI
CNN |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AI如何理解视觉搜索:Ask a Techspert解析 03-06
视觉搜索
多模态
计算机视觉 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AI技术解析:计算机视觉如何理解图像搜索 03-06
计算机视觉
多模态
生成式 AI |
[自动]
[ARXIV] | 3min | school
TaxonRL:基于中间奖励强化学习的可解释细粒度视觉推理 03-06
TaxonRL
强化学习
细粒度分类 |
[自动]
[ARXIV] | 3min | school
SimpliHuMoN:简化人体运动预测 03-06
人体运动预测
SimpliHuMoN
Transformer |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Ask a Techspert:AI如何理解视觉搜索 03-06
计算机视觉
视觉搜索
深度学习 |
[自动]
[ARXIV] | 3min | school
TaxonRL:基于中间奖励的可解释细粒度视觉推理 03-05
TaxonRL
强化学习
细粒度视觉推理 |
[自动]
[ARXIV] | 3min | school
SimpliHuMoN:简化人体运动预测的框架 03-05
人体运动预测
Transformer
计算机视觉 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI技术解析:计算机视觉如何理解图像搜索 03-05
计算机视觉
图像搜索
AI |
[自动]
[ARXIV] | 3min | school
ZipMap:基于测试时训练的线性时间有状态3D重建 03-05
3D重建
计算机视觉
Transformer |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-05
Stable Diffusion
扩散模型
模型训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
PRX Part 3:24小时训练文本生成图像模型 03-05
Stable Diffusion
扩散模型
文本生成图像 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-05
Stable Diffusion
扩散模型
文本生成图像 |
[自动]
[ARXIV] | 3min | school
LoGeR:基于混合记忆的长上下文几何重建 03-05
LoGeR
3D重建
长上下文 |
[自动]
[ARXIV] | 3min | school
LoGeR:基于混合记忆的长上下文几何重建 03-04
LoGeR
几何重建
3D重建 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-04
Stable Diffusion
扩散模型
文本生成图像 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-04
Stable Diffusion
文本生成图像
模型训练 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-04
Stable Diffusion
扩散模型
文本生成图像 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-04
Stable Diffusion
PRX
文本生成图像 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-04
Stable Diffusion
扩散模型
模型训练 |
[自动]
[ARXIV] | 4min | school
MoECLIP:基于补丁专家的零样本异常检测 03-04
MoECLIP
零样本学习
异常检测 |
[自动]
[ARXIV] | 3min | school
自适应置信度正则化用于多模态失效检测 03-04
多模态
失效检测
置信度 |
[自动]
[ARXIV] | 3min | school
Sketch2Colab:基于可控流蒸馏的草图多人动画 03-04
计算机视觉
动作生成
扩散模型 |
[自动]
[ARXIV] | 3min | school
自适应置信度正则化用于多模态失效检测 03-03
多模态
失效检测
自动驾驶 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
PRX Part 3:24小时训练文本生成图像模型 03-03
Stable Diffusion
扩散模型
文本生成图像 |
[自动]
[JUEJIN] | 1min | sticky_note_2
AI视觉连载:传统计算机视觉中的边缘检测原理 03-03
计算机视觉
边缘检测
图像处理 |
[自动]
[JUEJIN] | 1min | sticky_note_2
传统计算机视觉边缘检测原理与图像边界识别方法 03-03
计算机视觉
边缘检测
图像处理 |
[自动]
[ARXIV] | 4min | school
SeeThrough3D:文本生成图像中的遮挡感知三维控制 03-02
SeeThrough3D
文本生成图像
3D控制 |
[自动]
[ARXIV] | 4min | school
SeeThrough3D:实现遮挡感知的文本生成图像三维控制 03-01
SeeThrough3D
文本生成图像
3D控制 |
[自动]
[JUEJIN] | 2min | sticky_note_2
WiFi-DensePose项目利用WiFi信号实现室内人体姿态感知 03-01
WiFi感知
姿态估计
DensePose |
2026年二月
57 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
SeeThrough3D:文本生成图像中的遮挡感知三维控制 02-28
SeeThrough3D
文本生成图像
3D控制 |
[自动]
[JUEJIN] | 2min | sticky_note_2
WiFi-DensePose项目利用AI分析信号实现无摄像头人体姿态感知 02-28
WiFi感知
姿态估计
DensePose |
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-27
Nano Banana 2
图像生成
图像编辑 |
[自动]
[ARXIV] | 4min | school
SeeThrough3D:文本生成图像中的遮挡感知三维控制 02-27
SeeThrough3D
文本生成图像
3D控制 |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI视觉实战:高斯滤波器原理可视化与图像降噪 02-27
计算机视觉
图像处理
高斯滤波 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用 Nano Banana 2 构建图像生成与编辑应用 02-27
Nano Banana 2
图像生成
图像编辑 |
[自动]
[ARXIV] | 4min | school
面向高效高分辨率GUI智能体的时空令牌剪枝 02-27
GUI Agent
Token Pruning
Qwen2-VL |
[自动]
[ARXIV] | 3min | school
现成图像模型可攻破图像保护方案 02-27
图像保护
对抗攻击
Stable Diffusion |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Nano Banana 2 AI 图像生成模型 02-26
Google
Nano Banana 2
图像生成 |
[自动]
[ARXIV] | 3min | school
现成图生图模型可攻破主流图像保护方案 02-26
图像保护
对抗样本
图生图 |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI Agent接管手机:移动端观测技术与事件特征提取 02-26
AI Agent
移动端
UI 树解析 |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Nano Banana 2 AI 图像生成模型 02-26
Google
Nano Banana 2
图像生成 |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Nano Banana 2:最新 AI 图像生成模型 02-26
Google
Nano Banana 2
图像生成 |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Nano Banana 2 AI 图像生成模型 02-26
Google
Nano Banana 2
图像生成 |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌发布 Nano Banana 2:最新 AI 图像生成模型 02-26
Google
Nano Banana 2
图像生成 |
[自动]
[JUEJIN] | 2min | sticky_note_2
空洞卷积原理:如何解决计算机视觉的精度与视野矛盾 02-26
空洞卷积
计算机视觉
深度学习 |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI视觉连载6:传统CV之高斯滤波原理与平滑效果 02-25
计算机视觉
传统CV
图像处理 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于AWS CDK集成Rekognition与Neptune构建智能照片搜索系统 02-25
AWS
CDK
Rekognition |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI视觉连载6:传统CV之高斯滤波原理与应用 02-25
计算机视觉
图像处理
高斯滤波 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
基于 AWS CDK 集成 Rekognition 与 Neptune 的智能照片搜索系统 02-25
AWS
CDK
Rekognition |
[自动]
[BLOGS_PODCASTS] | 3min | mic
基于 AWS CDK 集成 Rekognition 与 Neptune 构建智能图片搜索系统 02-25
AWS
CDK
Rekognition |
[自动]
[ARXIV] | 3min | school
VAUQ:面向LVLM自评估的视觉感知不确定性量化 02-25
LVLM
多模态
不确定性量化 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-24
AWS
SageMaker
HyperPod |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-24
AWS
SageMaker
HyperPod |
[自动]
[ARXIV] | 3min | school
RetinaVision:基于XAI增强调控的深度学习视网膜疾病分类 02-24
计算机视觉
医疗AI
深度学习 |
[自动]
[ARXIV] | 3min | school
A.R.I.S.:基于深度学习的电子废弃物自动分类系统 02-21
深度学习
计算机视觉
YOLOx |
[自动]
[ARXIV] | 2min | school
以对象为中心的表征是否更利于组合泛化 02-20
组合泛化
对象中心
视觉表征 |
[自动]
[ARXIV] | 3min | school
以对象为中心的表征在组合泛化任务中的表现评估 02-19
组合泛化
以对象为中心
视觉问答 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展方法 02-16
多模态
思维链
测试时扩展 |
[自动]
[ARXIV] | 4min | school
UniT:统一多模态思维链测试时扩展 02-14
多模态
思维链
测试时扩展 |
[自动]
[HACKER_NEWS] | 5min | newspaper
神经渲染技术探索与应用实践 02-14
神经渲染
NeRF
3D重建 |
[自动]
[HACKER_NEWS] | 7min | newspaper
神经渲染技术探索与应用实践 02-14
神经渲染
NeRF
3D重建 |
[自动]
[HACKER_NEWS] | 6min | newspaper
神经渲染技术探索与应用实践 02-14
神经渲染
NeRF
3D重建 |
[自动]
[HACKER_NEWS] | 6min | newspaper
神经渲染技术探索:从原理到应用实践 02-14
神经渲染
NeRF
3D重建 |
[自动]
[ARXIV] | 4min | school
超越VLM奖励:扩散原生潜在奖励建模 02-12
扩散模型
DiNa-LRM
奖励建模 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营就绪测试 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营验收测试 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用 Nova 模型自动化检测新履约中心组件 02-12
Amazon Nova
Amazon Bedrock
计算机视觉 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用 Nova 模型自动化新履约中心运营就绪测试 02-12
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[JUEJIN] | 3min | sticky_note_2
AI视觉连载3:RGB图像模式与通道原理解析 02-12
计算机视觉
图像处理
RGB |
[自动]
[JUEJIN] | 2min | sticky_note_2
AI视觉连载3:RGB图像原理与通道详解 02-11
AI视觉
RGB
图像处理 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
亚马逊利用Nova模型自动化新履约中心运营就绪测试 02-11
Amazon Nova
Amazon Bedrock
图像识别 |
[自动]
[ARXIV] | 3min | school
鲁棒性是函数而非数值:基于视觉驾驶的OOD鲁棒性因子化研究 02-10
OOD鲁棒性
视觉驾驶
因子化 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo 世界模型:利用生成式世界模型提升自动驾驶决策能力 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:利用生成式世界模拟提升自动驾驶决策 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:自动驾驶场景生成与预测架构 02-07
Waymo
世界模型
自动驾驶 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Waymo 世界模型:利用生成式视频预测驾驶场景 02-06
Waymo
世界模型
生成式视频 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Waymo世界模型:自动驾驶仿真的新前沿 02-06
Waymo
自动驾驶
世界模型 |
[自动]
[HACKER_NEWS] | 6min | newspaper
Waymo世界模型:自动驾驶仿真的新前沿 02-06
Waymo
自动驾驶
世界模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
文生图模型训练设计:消融实验的经验总结 02-04
文生图
模型训练
消融实验 |
[自动]
[ARXIV] | 5min | school
PixelGen:像素扩散结合感知损失超越潜在扩散 02-04
PixelGen
扩散模型
计算机视觉 |
[自动]
[ARXIV] | 4min | school
PixelGen:引入感知损失的像素扩散模型性能超越潜在扩散 02-03
PixelGen
扩散模型
计算机视觉 |
[自动]
[ARXIV] | 3min | school
HERMES:基于视觉语言模型的长尾自动驾驶端到端风险感知系统 02-03
自动驾驶
VLM
长尾场景 |
[自动]
[ARXIV] | 3min | school
VideoGPA:提取几何先验实现三维一致性视频生成 02-03
VideoGPA
视频生成
3D一致性 |
[自动]
[ARXIV] | 5min | school
VideoGPA:提取几何先验实现三维一致视频生成 02-02
视频生成
3D一致性
扩散模型 |
[自动]
[ARXIV] | 4min | school
IRL-DAL:基于能量引导扩散模型的自动驾驶安全自适应轨迹规划 02-02
自动驾驶
扩散模型
逆向强化学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
自动驾驶与无人机易受路牌提示词攻击 02-01
提示词注入
对抗性攻击
自动驾驶 |
2026年一月
7 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
基于相机-IMU融合的鲁棒路面分类数据集与框架 01-29
计算机视觉
多模态融合
IMU |
[自动]
[ARXIV] | 5min | school
🚀AnyView:动态场景任意新视角合成!开创性技术突破🔥 01-27
计算机视觉
视频生成
扩散模型 |
[自动]
[ARXIV] | 5min | school
🚀动态场景新视角合成!AnyView实现任意视角自由切换!🤯 01-26
动态场景
新视角合成
扩散模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
macOS神器:含胸驼背?屏幕立刻模糊!强制你挺直腰杆!💻✨ 01-26
macOS
健康
坐姿监测 |
[自动]
[HACKER_NEWS] | 3min | newspaper
⚠️一咬指甲就强制关机?这款桌面App太狠了!🖥️🚫 01-26
桌面应用
习惯矫正
生产力工具 |
[自动]
[ARXIV] | 6min | school
🤖抽屉打不开?揭秘零样本组合动作识别中的“物体捷径”! 01-25
计算机视觉
零样本学习
动作识别 |
[自动]
[HACKER_NEWS] | 3min | newspaper
🔥 视频修复难题:如何攻克时间一致性? 01-25
视频修复
时序一致性
光流 |
无匹配条目