Skip to content

Latest commit

 

History

History
32 lines (20 loc) · 7.28 KB

README.md

File metadata and controls

32 lines (20 loc) · 7.28 KB

#segmentation-slam-paper

Object-Centric Photometric Bundle Adjustment with Deep Shape Prior

本文发表在WACV2018会议上,是CMU的一个工作,这篇文章不能算是SLAM的一个工作,属于SFM,但是其思路值得借鉴。传统的·SFM是纯几何的误差,不考虑几何形状先验,深度学习则是完全抛弃了集合误差。(对于语义SLAM而言,其实也是一样啊).传统的SFM主要是通过特征对应(重投影误差)、光度一致性(光度误差)、轮廓约束,虽然这些都是能达到较为先进的水平,但是目前在低纹理区域、镜面反射区域等还是存在一定缺陷,本文其实就是探索一种方法。在最小化光度误差的时候,由于逆深度和相机位姿赋予了整个系统较为强烈的几何约束,但是这种约束通常在图像梯度较强的边缘比较有效果,对于弱纹理区域仍然存在较大的缺陷,而基于深度学习的重建方法,能够较好的克服这种缺陷。本文的主要贡献:1.点与点之间的关联是有深度学习网络输出构成2.与传统的深度学习相比,在推理是必须保证其几何一致性3.证明了形状变化相对于相机位姿和几何位置是可微的(其实这个就是一个比较关键的问题,如果通过多传感器融合的思路来实现,就必须要证明误差项相对于相机位姿和几何位置是可微的)论文中根据深度学习生成的几何轮廓通过伪渲染的方式(就是将3D投影到2D)能够得到将几何形状转换为二维表示,形成一个可微方程。同时由于引入了这样的一个可微过程,所以他在做BA的时候,用的就不再是高斯牛顿法,因为雅克比无法求(深度学习黑箱有点麻烦),而是选择SGD、LBFGS这一类基于梯度的优化算法。作者在论文中探讨了形状的先验在优化过程中所扮演的角色:在逆投影回去的时候,其实只有三维形状的一部分点是可见的,但是有了形状先验,就可以去更新所有点的位置(包括可见点和不可见点)。论文中提到基于光度误差损失在所有点都不再当前帧的条件下,给出了一个0损失,这是不合理的,因此引入了倒角距离损失作为一个补充约束。与这篇论文相关的文章如下,它是介绍伪渲染函数的,应该算是本篇论文的一个基础工作。Learning Efficient Point Cloud Generation for Dense 3D Object Reconstruction

Long-term Visual Localization using Semantically Segmented Images

这篇论文是发表在ICRA2018上的一篇论文,主要是用来解决无人车在跨度时间较长的情况下的一个定位问题,传统的描述子对于这种光照变化会比较的敏感,所以在时间跨度较大的场景下并不能适用。本文提出了基于语义的定位方法,用语义分割去替代了特征描述子,基于粒子滤波的方式实现了定位。在长期定位过程中定位失败的主要原因其实是在于无法找到一个不变的特征,因为基于描述子的特征如SIFT,ORB等随着时间的变化(跨季节)会发生改变。本文设计了一种依赖于语义label和3D位置的定位算法这个问题就变成了,给定观测的情况下如何递归的就算相对于地图,车辆的姿态的后验概率,基于滤波的思路实现了定位,这里的定位特征用了SIFT和语义分割后的特征。与此相关的论文还有一篇:Long-term 3D Localization and Pose from Semantic Labellings(ICCV2017)

VSO: Visual Semantic Odometry

这篇论文是发表在ECCV2018上面的,这篇论文的思路其实并不复杂,核心问题还是在于如何去设计损失函数,以及如何对损失函数求最小化。 数据关联是视觉里程计的一个核心问题,对于短期的数据关键通常采用帧对帧的跟踪,长期的数据关联采用的是回环检测,作者用语义信息实现了一个中期的数据关联,并取得了一个不错的效果。由于语义信息是一种相对高层次的抽象信息,因此在较长一段时间内语义信息都不会发生改变,而几何信息则很容易跟丢,因此本文基于这个思考提出了一种融合语义信息的视觉里程计,并且将语义信息约束融合到了位姿和路标位置的优化当中。 本文的主要贡献:1.提出了一个语义重投影误差,并且通过EM算法能够优化该误差,并且该误差与所使用的语义分割方法无关;2.本文的方法可以显著降低自动驾驶环境下的平移误差,并且能够很容易的嵌入到现有的SLAM方法当中;3.对我们的方法进行了分析,指明了适用条件。本文使用距离变换将物体分割边缘作为一个约束,利用最小化重投影误差的方式将整个问题进行了求解。与这篇文章相似的论文还有ICRA2017的视觉领域的best paper: Probabilistic Data Association for Semantic SLAM

DL-SLAM: A Semantic Visual SLAM toward Dynamic Environment

这篇论文是清华大学的,发表在IROS2018上面,等IROS论文集出了,估计会有不少语义SLAM的工作,研究者针对动态环境提出了基于语义信息的鲁棒SLAM系统,包括了五个线程:跟踪,语义分割,局部建图,回环检测和稠密语义映射。作者在TMU数据集上相比ORB-SLAM绝对轨迹精度提升了一个数量级。 本文中作者将光流(用于运动一致性检验)与分割网络(语义信息抽取)相结合,主要贡献如下:

  1. 基于ORB-SLAM2 [2]提出了动态环境(DS-SLAM)中的完整语义SLAM系统,可以减少动态对象对姿态估计的影响。
  2. 将语义分割与运动一致性检验结合,滤除了动态环境的干扰,提升了定位和建图的精度。
  3. DS-SLAM有一个单独的稠密建图线程,能滤除掉了语义不确定的体素,并且更新语义信息。

A Variational Feature Encoding Method of 3D Object for Probabilistic Semantic SLAM

这篇论文也是发表在IROS2018上面的,这篇文章提出了一种对复杂的三维物体的高级特征编码方式。作者认为机器人通过单帧观测到的图像由于丢失了物体的形状信息,它是限制机器人使用三维形状特征作为语义信息以及机器人回环检测的准确性(因为回环检测是要求与视图无关,因此三维信息就是一个非常好的选择)。为了实现贝叶斯推理,作者这里用变分自编码器,捕捉真实的分布情况,然后生成易处理的模型。(也就是提出多个视图下的关于三维物体的共同特征,无论从哪个角度看,机器人都能认出来)最后用EM算法来解决数据关联的问题。 本篇论文有两个创新点:1.提出了语义特征可以被隐变量表示,并可以通过EM算法进行优化求解2. 提出了利用单一视图生成3D特征的变分自编码贝叶斯网络。 作者认为基于特征的SLAM方法主要的问题就是在于数据关联,一旦数据出现误关联的话,整个SLAM系统就很容易崩掉,所以作者这里也决定用EM算法来关联。既然用EM那么就遇到了一个问题,当前基于深度学习的目标检测算法(这里是以物体作为对象)他是一个黑箱啊,无法优化,于是作者就想到要对数据进行建模,建成一个易于优化的模型,然后很自然的就想到了变分自编码器。