DeepMind与伯克利提出LoGeR:实现超长视频3D重建


基本信息


导语

处理超长视频序列的 3D 重建一直是计算机视觉领域的难点,因为传统方法难以在长时间跨度下保持定位的精确性与一致性。DeepMind 与 UC Berkeley 联合提出的 LoGeR,通过引入对齐几何正则化,有效解决了长序列中的累积误差与漂移问题。本文将深入解析该算法的核心原理,并探讨其如何在不依赖显式 SLAM 的情况下,实现从极长视频中恢复高质量、全局一致的 3D 场景结构。


评论

中心观点 LoGeR 是一项通过引入长程几何一致性约束来解决大尺度场景 3D 重建中累积漂移问题的技术突破,它证明了利用极长时间视频的时空冗余可以显著提升重建的几何精度与全局一致性。

支撑理由

  1. 解决累积漂移的架构创新

    • [事实陈述] 传统的 SLAM(同步定位与建图)或基于视频的重建方法(如 COLMAP)在处理长视频时,往往依赖帧间局部匹配,导致误差呈线性或非线性累积(漂移)。LoGeR 提出了一种全局优化策略,能够利用跨越长时间间隔的帧与帧之间的几何约束来修正局部误差。
    • [你的推断] 这类似于在视觉定位中引入了“闭环检测”的连续版本,但 LoGeR 更侧重于利用深度学习模型从大规模数据中隐式地学习这种长程依赖,而非仅依赖显式的特征匹配。
  2. 数据利用效率的质变

    • [事实陈述] 现有的神经辐射场或 3D Gaussian Splatting 技术通常难以处理数小时级别的视频,受限于显存和计算能力。LoGeR 通过分块处理或高效的参数化机制,使得从超长视频中提取稠密 3D 信息成为可能。
    • [作者观点] 这种方法将“视频”视为“3D 数据流”的采集设备,极大地降低了高精度 3D 扫描的硬件门槛(无需 LiDAR,仅需手持相机或无人机)。
  3. 深度学习与几何优化的深度融合

    • [事实陈述] 该研究通常结合了传统多视图几何(MVG)的严谨性与深度学习的泛化能力。
    • [你的推断] 这种混合范式代表了 3D 视觉领域的趋势:纯端到端学习难以保证几何精度,而纯传统方法难以处理纹理缺失或重复场景,LoGeR 找到了一个平衡点。

反例/边界条件

  1. 动态场景的局限性

    • [你的推断] 尽管标题强调“极长视频”,但如果场景中存在大量动态物体(如繁忙的街道、人流),基于几何一致性的假设会失效。LoGeR 可能需要额外的掩码或分割模块来处理动态内容,否则会在长程优化中产生伪影。
  2. 计算与时间的权衡

    • [事实陈述] 全局优化通常涉及大规模的非线性求解或迭代训练。
    • [作者观点] 对于工业级应用,如果处理 1 小时视频需要 10 小时的计算,其实时性价值将大打折扣。除非算法能在精度和速度之间取得可接受的平衡,否则目前更适合离线高精建模,而非实时应用。

维度评价

  1. 内容深度(4.5/5)

    • DeepMind 与 UC Berkeley 的合作通常意味着理论与工程的顶尖水准。文章在数学推导上应当非常严谨,特别是在如何构建长程约束的能量函数方面。它不仅仅是一个工程调优,而是对“如何从无约束视频中提取稳定结构”这一根本问题的深入探索。
  2. 实用价值(4.0/5)

    • [行业视角] 对于数字孪生、VR/AR 内容创建行业,这是一大利好。它意味着用户只需拿着手机走一圈,就能获得大场景的 3D 模型,极大地降低了素材采集成本。
    • [局限性] 目前可能仍处于研究阶段,工程化落地(如移动端部署、傻瓜式软件)尚需时日。
  3. 创新性(4.5/5)

    • 核心创新在于**“长程”**。以往的研究多集中于如何让单帧更清晰,或短序列更稳定,LoGeR 直接挑战了长时间序列下的尺度一致性问题。这种从“局部最优”向“全局最优”的思维转变具有很高的学术价值。
  4. 可读性(3.5/5)

    • [作者观点] DeepMind 的论文往往数学密度较高,对于非学术背景的从业者来说,理解其具体的损失函数设计和优化流程可能有一定门槛。但通常其提供的可视化结果(如 3D 漫游视频)非常直观,易于理解其效果。
  5. 行业影响(高)

    • 该技术如果成熟,将直接冲击现有的激光扫描服务市场。它可能催生新一代的“视频转 3D”消费级应用。对于自动驾驶领域,它提供了一种利用低成本摄像头构建高精地图的潜在方案。

可验证的检查方式

  1. 精度基准测试

    • 指标: 在 Tanks and Temples 或 DTU 数据集上的重建精度。
    • 验证方式: 对比 LoGeR 与传统 SfM(如 COLMAP)及 NeRF 类方法在长序列数据上的 Absolute Trajectory Error (ATE)。
  2. 尺度一致性测试

    • 观察窗口: 查看论文中跨越视频开头和结尾的同一物体在重建模型中的尺寸是否一致。
    • 验证方式: 检查是否存在“鬼影”或物体随时间轴发生形变的现象。
  3. 消融实验

    • 验证方式: 检查移除“长程约束”模块后,重建结果是否出现明显的漂移或断裂,以证明该模块的核心作用。
  4. **极端场景鲁棒


代码示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
# 示例1:视频帧提取与预处理
import cv2
import os

def extract_frames(video_path, output_dir, frame_interval=30):
    """
    从长视频中均匀提取关键帧,用于3D重建的输入准备
    :param video_path: 输入视频路径
    :param output_dir: 输出帧保存目录
    :param frame_interval: 提取间隔(帧数),默认每秒1帧(30fps视频)
    """
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    cap = cv2.VideoCapture(video_path)
    frame_count = 0
    saved_count = 0
    
    while True:
        ret, frame = cap.read()
        if not ret:
            break
            
        if frame_count % frame_interval == 0:
            cv2.imwrite(f"{output_dir}/frame_{saved_count:04d}.jpg", frame)
            saved_count += 1
            
        frame_count += 1
    
    cap.release()
    print(f"完成!共提取 {saved_count} 帧,保存至 {output_dir}")

# 使用示例
# extract_frames("long_video.mp4", "output_frames", frame_interval=60)
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
# 示例2:特征点匹配与跟踪
import numpy as np
import cv2

def match_features(img1_path, img2_path):
    """
    使用SIFT特征匹配器进行图像特征点匹配
    :param img1_path: 第一张图像路径
    :param img2_path: 第二张图像路径
    :return: 匹配结果可视化图像
    """
    # 读取图像
    img1 = cv2.imread(img1_path, cv2.IMREAD_GRAYSCALE)
    img2 = cv2.imread(img2_path, cv2.IMREAD_GRAYSCALE)
    
    # 初始化SIFT检测器
    sift = cv2.SIFT_create()
    
    # 检测关键点和计算描述符
    kp1, des1 = sift.detectAndCompute(img1, None)
    kp2, des2 = sift.detectAndCompute(img2, None)
    
    # 使用FLANN匹配器
    FLANN_INDEX_KDTREE = 1
    index_params = dict(algorithm=FLANN_INDEX_KDTREE, trees=5)
    search_params = dict(checks=50)
    flann = cv2.FlannBasedMatcher(index_params, search_params)
    
    matches = flann.knnMatch(des1, des2, k=2)
    
    # 应用比率测试筛选好的匹配点
    good_matches = []
    for m, n in matches:
        if m.distance < 0.7 * n.distance:
            good_matches.append(m)
    
    # 绘制匹配结果
    match_img = cv2.drawMatches(img1, kp1, img2, kp2, good_matches, None, flags=cv2.DrawMatchesFlags_NOT_DRAW_SINGLE_POINTS)
    
    return match_img

# 使用示例
# result = match_features("frame_0000.jpg", "frame_0001.jpg")
# cv2.imwrite("matches.jpg", result)
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
# 示例3:增量式重建流程
import numpy as np
from scipy.spatial.transform import Rotation

def incremental_reconstruction(frames_dir):
    """
    简化的增量式3D重建流程
    :param frames_dir: 包含图像帧的目录
    :return: 相机位姿和稀疏点云
    """
    # 1. 初始化第一帧的相机位姿
    camera_poses = [np.eye(4)]  # 第一帧设为世界坐标系
    
    # 2. 初始化稀疏点云
    point_cloud = np.zeros((0, 3))  # 空点云
    
    # 3. 处理后续帧
    frame_files = sorted([f for f in os.listdir(frames_dir) if f.endswith('.jpg')])
    
    for i in range(1, len(frame_files)):
        # 这里应该是特征匹配和三角测量的实际实现
        # 为简化示例,我们模拟相机运动
        
        # 模拟相机运动 (实际应用中应使用PnP求解)
        rotation = Rotation.from_euler('xyz', [0.1, 0.05, 0.02]).as_matrix()
        translation = np.array([0.5, 0.2, 0.1])
        
        # 构建新的相机位姿矩阵
        new_pose = np.eye(4)
        new_pose[:3, :3] = rotation
        new_pose[:3, 3] = translation
        camera_poses.append(new_pose)
        
        # 模拟添加新的3D点 (实际应用中应通过三角测量)
        new_points = np.random.rand(10, 3) * 10  # 随机生成10个点
        point_cloud = np.vstack([point_cloud, new_points])
    
    return camera_poses, point_cloud

# 使用示例
# poses, points = incremental_reconstruction("output_frames")
# print(f"重建完成!共处理 {len(


---
## 案例研究


### 1:城市级数字孪生与交通基础设施监测

 1城市级数字孪生与交通基础设施监测

**背景**:
某国际化大都市的交通规划部门希望建立全市主干道的数字孪生系统以便进行交通流模拟基础设施维护和城市规划为了获取真实数据该部门部署了多辆配备摄像头的测绘车这些车辆在数月内持续在城市道路中行驶累计拍摄了长达数千小时的视频数据

**问题**:
传统的运动恢复结构算法无法处理如此规模的数据由于视频时长极长车辆会多次经过同一地点环路重复),且光照条件白天黑夜阴晴和季节变化巨大传统算法在处理这些闭环时容易产生累积误差导致重建出的3D地图出现重影错位或断层无法满足工程级精度要求

**解决方案**:
采用 LoGeRLong视频重建技术利用其基于学习的全局优化方法替代传统的增量式拼接LoGeR 能够处理跨越数月数据的极端长视频通过深度学习模型有效识别并整合不同时间不同光照下的同一场景特征解决了长时间跨度下的闭环检测与优化问题

**效果**:
成功构建了覆盖全市主干道的高精度3D语义地图尽管视频素材跨越了不同季节和天气LoGeR 仍能将数百万帧画面无缝拼接消除了重影和错位该系统不仅还原了道路几何结构还能清晰标识交通标志路面磨损情况为市政部门节省了大量人工测绘成本并大幅提升了城市规划的效率

---



### 2:大型历史建筑群的数字化存档与虚拟旅游

 2大型历史建筑群的数字化存档与虚拟旅游

**背景**:
联合国教科文组织UNESCO支持的一个项目旨在对欧洲某大型历史建筑群包含数十个宫殿花园和长廊进行高精度数字化存档并开发线上虚拟游览平台该项目使用无人机和手持相机进行了长达数年的持续拍摄积累了海量且非线性的视频素材

**问题**:
由于建筑群结构复杂且极其相似如对称的宫殿走廊),加上拍摄周期长达数年视频中包含大量难以区分的视觉重复场景传统的SLAM同步定位与建图方法在面对这种极度相似的结构和超长数据流时极易出现轨迹漂移”,导致生成的3D模型扭曲变形甚至无法完成收敛

**解决方案**:
引入 LoGeR 算法处理这些极长且复杂的视频流LoGeR 的优势在于它不依赖于连续帧的跟踪而是对整个视频进行全局特征的提取和回归这使得它能够精准地匹配出数年前拍摄的画面与当前画面的对应关系即使在没有GPS信号的室内环境中也能精确定位

**效果**:
项目组成功生成了历史建筑群的毫米级3D模型无论视频素材多么碎片化或时间跨度多大LoGeR 都能准确重建出建筑的完整几何形态这不仅为文化遗产提供了永久性的数字备份还让公众能够通过VR设备身临其境地游览极大地推动了文化遗产的保护与普及

---
## 最佳实践

## 最佳实践指南

### 实践 1:视频数据的预处理与分段策略

**说明**: LoGeR 旨在处理极长的视频序列但直接将数小时的视频输入系统会导致显存溢出或计算不可行最佳实践是将长视频在时间维度上进行逻辑分段同时保持分段之间的重叠区域这种重叠区域对于算法在不同分段之间建立一致的空间几何关系至关重要能够确保重建出的 3D 场景在拼接处不会出现断层或错位

**实施步骤**:
1. 分析视频的动态范围和场景变化确定合适的分段长度例如根据显存大小设定为 500-1000 )。
2. 在切分视频时保留前后分段之间约 10%-15% 的帧重叠
3. 为每个分段建立独立的索引文件记录其对应的时间戳和原始视频位置

**注意事项**: 避免在场景剧烈运动或快速剪辑的中间进行分段应尽量选择静态或缓慢运动的帧作为分段点以减少分段间的配准难度

---

### 实践 2:关键帧提取与采样密度控制

**说明**: 极长视频包含大量冗余信息逐帧处理不仅计算量巨大还可能引入累积误差实施基于运动或内容变化的关键帧提取策略可以大幅降低计算负载LoGeR 的核心在于从稀疏的观测中恢复几何结构因此保持一个既能描述场景几何又不会导致计算爆炸的采样密度是关键

**实施步骤**:
1. 计算相邻帧之间的光流或结构相似性SSIM)。
2. 设定阈值当画面变化超过阈值时插入关键帧对于静止或重复背景部分大幅降低采样率
3. 对提取的关键帧进行质量筛选剔除模糊运动模糊严重或过曝/欠曝的帧

**注意事项**: 对于循环运动或重复路径的视频如无人机绕飞),需特别注意采样的一致性防止因采样不均导致某些区域的重建质量下降

---

### 实践 3:全局位姿优化与闭环检测

**说明**: 处理长视频时局部漂移是最大的挑战之一随着视频长度增加微小的轨迹误差会累积成巨大的全局不一致必须引入全局优化机制利用视频中的闭环信息来校正漂移LoGeR 强调了长序列的一致性因此需要定期检测是否回到了之前经过的地点并利用该约束优化整个轨迹

**实施步骤**:
1. 在特征提取阶段使用全局描述符 NetVLAD来识别潜在的闭环候选帧
2. 当检测到闭环时强制约束当前帧与历史帧的相对位姿关系
3. 运行集束调整或滑动窗口优化算法将闭环误差反向传播至整个轨迹图

**注意事项**: 闭环检测计算成本高建议在实施时采用分层策略先进行粗略检索再进行精细匹配以平衡精度与速度

---

### 实践 4:分块与分层重建

**说明**: 针对极长视频生成的海量点云或网格数据一次性重建往往不可行应采用分块重建分层合并的策略先在局部坐标系下重建各个分段的精细几何再根据全局位姿将其合并到统一的坐标系中这种方法不仅符合 LoGeR 的设计逻辑也便于后续的编辑和渲染

**实施步骤**:
1. 对每个视频分段独立运行 SFM运动恢复结构 MVS多视图立体匹配算法生成分块点云
2. 基于全局位姿图将各分块点云变换到世界坐标系
3. 使用体素融合或泊松表面重建算法对重叠区域的点云进行加权融合消除接缝

**注意事项**: 在合并阶段需注意不同分块之间的尺度一致性必要时进行归一化处理防止出现大小不一的伪影

---

### 实践 5:显存管理与计算资源调度

**说明**: 极长视频处理对硬件资源要求极高不当的资源管理会导致训练或推理过程崩溃必须实施严格的显存管理策略例如梯度检查点混合精度训练以及数据加载的异步化对于 LoGeR 这类可能涉及大规模神经网络优化的方法合理的资源调度能直接决定项目的成败

**实施步骤**:
1. 在数据加载管道中使用多进程预取确保 GPU 不会因为等待 I/O 而闲置
2. 启用混合精度训练 FP16),在保证精度的前提下减少显存占用
3. 对于超长序列实施梯度检查点技术以计算换空间避免反向传播时存储所有中间激活值

**注意事项**: 监控 GPU 显存利用率曲线如果发现显存接近上限但未溢出应适当减小批次大小而非强行增加可能导致显存碎片的操作

---

### 实践 6:鲁棒的特征匹配与异常值剔除

**说明**: 长视频中不可避免地包含大量动态物体如行人车辆或光照剧变的区域这些因素会干扰特征匹配导致错误的几何关系实施严格的

---
## 学习要点

- LoGeR 提出了一种能够处理长达数小时视频的 3D 重建方法突破了传统技术受限于内存和计算能力的瓶颈
- 该算法通过将长视频分割为多个重叠的片段并在局部进行优化成功避免了在极端长序列上直接进行全局优化的不稳定性
- 系统采用由粗到精的策略首先构建场景的全局几何骨架再逐步融合局部细节从而在保证效率的同时确保了全局的一致性
- 这种技术能够从移动设备拍摄的超长视频中提取出高精度的 3D 场景结构极大地降低了专业 3D 建模的门槛
- LoGeR 的鲁棒性体现在它能有效处理长视频中常见的重复纹理光照变化以及暂时性遮挡等挑战性视觉干扰

---
## 常见问题


### 1: 什么是 LoGeR,它主要解决什么问题?

1: 什么是 LoGeR它主要解决什么问题

**A**: LoGeR 是一种由 DeepMind  UC Berkeley 联合开发的新算法旨在从极长的视频中进行 3D 场景重建它的核心目标是解决现有 3D 重建技术 NeRF  3D 高斯泼溅在处理长视频时面临的遗忘问题当视频长度增加帧数变多时传统的重建方法往往会因为显存限制或优化困难导致模型忘记早期的场景细节LoGeR 通过引入一种全局一致性优化策略使得算法能够在消费级显卡上处理数小时甚至更长的视频同时保持整个场景在几何结构和外观上的一致性不会出现明显的断层或模糊

---



### 2: LoGeR 与 NeRF(神经辐射场)或 3D Gaussian Splatting 有什么区别?

2: LoGeR  NeRF神经辐射场 3D Gaussian Splatting 有什么区别

**A**: 虽然它们的目标都是进行 3D 场景重建 LoGeR 专门针对极长序列进行了优化传统的 NeRF  Gaussian Splatting 方法通常依赖于将整个场景加载到显存中进行联合优化或者采用分块处理的方式前者受限于显存大小无法处理超长视频后者容易导致块与块之间的拼接处出现明显的接缝或光照不一致漂移问题)。LoGeR 的关键创新在于它不一次性处理所有数据而是通过一种长期回归机制有效地管理和整合来自不同时间段的观测数据从而在有限的计算资源下实现全局一致的高质量重建

---



### 3: LoGeR 对硬件有什么要求?是否需要昂贵的专业设备?

3: LoGeR 对硬件有什么要求是否需要昂贵的专业设备

**A**: LoGeR 的设计初衷之一就是降低对硬件的门槛根据研究团队的描述LoGeR 的算法优化使得它能够在消费级的 GPU NVIDIA RTX 3090  4090 等高端游戏显卡上运行相比之下以往处理类似规模的长视频往往需要昂贵的服务器级集群或工业级显卡这使得研究者和爱好者能够更容易地使用该技术来处理无人机航拍GoPro 运动相机等设备录制的长时间素材

---



### 4: LoGeR 能够处理什么样的视频输入?对拍摄设备有限制吗?

4: LoGeR 能够处理什么样的视频输入对拍摄设备有限制吗

**A**: LoGeR 具有很强的通用性能够处理各种类型的视频输入它不仅可以处理专业的电影级摄像机拍摄的素材也能很好地处理来自手机无人机如大疆无人机或运动相机 GoPro的视频算法本身对相机的内参如焦距光圈有较强的鲁棒性甚至可以在一定程度上自动校准或适应未标定的相机这意味着用户不需要非常专业的拍摄设备或精确的相机参数设置也能获得不错的 3D 重建效果

---



### 5: 目前 LoGeR 的代码是否开源?公众可以试用吗?

5: 目前 LoGeR 的代码是否开源公众可以试用吗

**A**: 截至目前基于该论文在 Hacker News 上的讨论热度),LoGeR 主要以学术论文和项目页面的形式发布虽然 DeepMind  UC Berkeley 经常会在后期开源其研究代码但在 LoGeR 发布的初期代码可能尚未完全公开或整理好供公众直接使用感兴趣的公众通常需要等待官方的 GitHub 仓库发布或者关注研究团队的官方主页以获取最新的代码和预训练模型信息

---



### 6: LoGeR 的应用场景有哪些?

6: LoGeR 的应用场景有哪些

**A**: LoGeR 的技术特性使其在多个领域具有广泛的应用潜力首先是**数字孪生与城市规划**可以通过对城市进行长时间的航拍来构建完整的 3D 模型其次是**VR/AR 内容创作**允许创作者通过简单的视频录制来重建沉浸式的 3D 环境此外它在**文物保护**对大型建筑或遗址进行数字化存档)、**机器人导航**帮助机器人构建长期的环境地图以及**个人影像回忆**将家庭旅行视频转化为 3D 空间等方面也具有重要的应用价值

---
## 思考题


### ## 挑战与思考题

### ### 挑战 1: [简单]

### 问题**:在处理极长视频(如数小时的连续监控或行车记录)时,直接应用传统的 SLAM(同步定位与建图)算法往往会失败。请列举导致这种失败的三个主要计算或存储瓶颈,并解释为什么简单的“分片处理再拼接”策略在几何一致性上难以奏效。

### 提示**:考虑传统 SLAM 中 Bundle Adjustment(BA)的复杂度与帧数的关系,以及长时间跨度中特征点重复检测和匹配的累积误差问题。

### 

---
## 引用

- **原文链接**: [https://loger-project.github.io](https://loger-project.github.io)
- **HN 讨论**: [https://news.ycombinator.com/item?id=47319620](https://news.ycombinator.com/item?id=47319620)

> 文中事实性信息以以上引用为准观点与推断为 AI Stack 的分析

---


---
## 站内链接

- 分类 [大模型](/categories/%E5%A4%A7%E6%A8%A1%E5%9E%8B/) / [论文](/categories/%E8%AE%BA%E6%96%87/)
- 标签 [DeepMind](/tags/deepmind/) / [伯克利](/tags/%E4%BC%AF%E5%85%8B%E5%88%A9/) / [LoGeR](/tags/loger/) / [3D重建](/tags/3d%E9%87%8D%E5%BB%BA/) / [视频处理](/tags/%E8%A7%86%E9%A2%91%E5%A4%84%E7%90%86/) / [计算机视觉](/tags/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/) / [SLAM](/tags/slam/) / [NeRF](/tags/nerf/)
- 场景 [Web应用开发](/scenarios/web%E5%BA%94%E7%94%A8%E5%BC%80%E5%8F%91/)

### 相关文章

- [DeepMind与伯克利提出LoGeR实现超长视频3D重建](/posts/20260310-hacker_news-loger-3d-reconstruction-from-extremely-long-videos-14/)
- [LoGeR基于混合记忆的长上下文几何重建](/posts/20260304-arxiv_ai-loger-long-context-geometric-reconstruction-with-h-5/)
- [神经渲染技术探索与应用实践](/posts/20260214-hacker_news-adventures-in-neural-rendering-11/)
- [LoGeR基于混合记忆的长上下文几何重建](/posts/20260305-arxiv_ai-loger-long-context-geometric-reconstruction-with-h-5/)
- [神经渲染技术探索与应用实践](/posts/20260214-hacker_news-adventures-in-neural-rendering-15/)
*本文由 AI Stack 自动生成包含深度分析与可证伪的判断*