基于几何和学习的全局式从运动恢复结构

       作为大规模场景三维重建问题的基础能力,从运动恢复结构(Structure-from-Motion, SfM)旨在通过海量二维图像精准鲁棒的求解相机空间位姿和相机内参数,也就是带有位姿的归一化图像(Posed images)。Posed images不仅是后续三维几何重建的基本输入,也是包括NeRF3DGS在内的各种渲染算法的基本输入。SfM问题同样也是传统多视图几何理论的集大成者,蕴含了最小配置解、最大似然估计、几何意义解等关键思想。虽然已历经几十年的研究,但是面对大规模复杂场景下的海量图像数据,SfM问题在鲁棒性、计算效率、精确性等方面仍然面临多重问题。实验室三维视觉研究部针对这一问题长期开展理论方法研究,近期两项研究成果被计算机视觉领域权威国际会议CVPR 2024接收。

       研究成果《Revisiting Global Translation Estimation with Feature Tracks》从几何视角出发重新审视了全局式SfM问题。绝大部分传统SfM方法仅依赖于相机间相对平移作为输入,导致在低视差或相机共线运动场景下的相机位置估计出现退化问题。虽然一些方法通过融合特征点轨迹来缓解这些问题,但它们通常对异常值非常敏感。因此,我们首先回顾了已有利用特征点轨迹的全局式相机平移估计方法,并将其分为显式和隐式方法两类。然后,我们提出并分析了基于叉乘度量的目标函数的优越性,并提出了一种以相机相对平移和特征点轨迹同时作为输入的显式全局式相机平移估计新框架HETA。此外,为了提高系统输入的准确性,我们使用极平面的共面性约束重新估计两视图相对平移,并提出一种简单而有效的策略来挑选可靠的特征点轨迹。在大量街景图像和无序图像数据上的测试表明,我们的方法相比现有SfM方法在准确性和鲁棒性方面展现出了显著优势。

 

1: KITTI数据集上各类全局式SfM计算的相机轨迹与真实相机轨迹对比

 

       研究成果《PanoPose: Self-supervised Relative Pose Estimation for Panoramic Images》从学习视角出发探索了全局式SfM问题求解的新途径。在现有的全局式SfM方法中,一个主要难点是估计具有尺度的相对位姿,即两张图像之间的相对旋转和具有尺度的相对平移。这一问题是由于传统的几何视觉方法(例如五点法)得到的相对平移是无尺度的。目前绝大部分方法都是在绝对位姿估计阶段解决该问题,而我们则考虑在相对位姿估计阶段解决。因此,我们提出了PanoPose,以完全自监督的方式估计有尺度的相对运动,并为全景图像构建了一个完整的全局式 SfM 流程。PanoPose 包含一个深度网络和一个位姿网络,通过估计的深度和相对位姿从相邻图像重建参考图像来实现自监督。为了提升大视角变换下位姿估计的精度,我们提出了一种纯旋转预训练策略。为了提升相对平移尺度的精度,我们使用一个融合模块将深度信息引入位姿估计中。多种类型全景数据集实验表明,我们的方法在计算精度、鲁棒性、泛化性等方面均取得了优异的性能。

 


2: PanoPose整体网络结构与融合模块网络结构

 

       上述两项研究工作第一作者分别为实验室硕士研究生陶沛霖和博士研究生屠殿韬,通讯作者为申抒含研究员和崔海楠副研究员。上述研究成果分别从几何视角和学习视角为大规模复杂场景中海量图像的高精度联合位姿解算提供了新的解决思路。

 

相关论文:

       1. Peilin Tao, Hainan Cui, Mengqi Rong, Shuhan Shen. Revisiting Global Translation Estimation with Feature Tracks. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2024.

      2.Diantao Tu, Hainan Cui, Xianwei Zheng, Shuhan Shen. PanoPose: Self-supervised Relative Pose Estimation for Panoramic Images. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2024.



                                            (发布时间:2024年4月17日)

 

新闻动态