依赖 3D 相机迎接立体检测的新挑战--中国期刊网

字体：大中小

首页> 原创作品> 正文

依赖 3D 相机迎接立体检测的新挑战

发表时间：2021/9/2 来源：《中国电气工程学报》2021年4期作者：李宇

[导读] 随着RCNN系列算法的出现和更新，依赖于2D的目标检测达获得了长足的发展

        李宇
        北京大恒图像视觉有限公司上海 200333
        摘要：随着RCNN系列算法的出现和更新，依赖于2D的目标检测达获得了长足的发展，并有了可观的进步，从而使得各种新的方法不断涌现。但是在无人驾驶、机器人、增强现实的等智能应用场景下，普通的2D检测并不能提供感知环境所需要的全部信息，它只能提供在二维图片中目标物体的位置及其对应类别的置信度。
关键词：3D相机；立体检测；计算机视觉
一 3D立体检测数据类型
        目前3D目标检测正处于快速发展阶段，综合利用单目相机、双目相机、多线激光雷达来进行3D目标检测，从成本上来看，激光雷达>双目相机>单目相机；但从准确率上讲，激光雷达>双目相机>单目相机。
1激光
        针对3D激光雷达检测法，其原理采用激光雷达将激光脉冲向扫描角度内的各个方向扫描而形成三维扫描面，与边界条件进行对比分析，进而确定遮挡物的大小及位置信息。本方法具有检测距离远、探测位置精确、可靠性高等优点，可实现空间检测。比起其他检测方法，更具主动防护性、稳定性等特点，并采用高效算法即时输出检查结果，系统运行全过程痕迹记录，较传统方法更具可靠性、先进性、智能性。
        目前，已对3D激光雷达间隙智能探测系统进行了工厂测试、实验室测试及试验线测试，满足功能需求，并应用于京张高铁八达岭长城站的站台门系统中，符合京张高铁智能化需求，为后续站台门防夹系统设计提供借鉴
2单目相机
        在Apollo中使用YOLO 3D，通过一个多任务网络来进行目标物体检测。其中的Encoder模块作为Yolo的Darknet，在此基础上加深卷积层数，并添加反卷积层，捕捉更丰富的图像上下文信息。此外，利用高分辨多通道生成特征图，从而捕捉图像细节，编码更多图像的上下文信息。该模块中加入FPN（Feature Paramid Network），更好地融合了图像的细节和整体信息。由于神经网络预测3D障碍物的9维参数难度较大，通过利用地面平行假设，以达到降低3D参数的目的。
3激光+单目相机
        AVOD输入RGB图像和BEV（Bird Eye View），利用FPN网络得到二者全分辨率的特征图，再通过Crop和Resize提取两个特征图对应的区域进行融合，挑选出3D proposal来进行3D物体检测，目前领先的算法主要集中于使用激光数据、或激光和单目融合的方法，纯视觉做3D目标检测的方法目前在准确度上还不能和上述两种方法相提并论，在相关算法上还有很大的成长空间，在工业界有较大的实用性需求，本次分享主要集中在目前比较新的纯视觉单目3D目标检测。
4 基于双目视觉的3Ｄ目标检测方法
        有研究者提出了一种基于双目视觉的3Ｄ目标检测方法。该方法利用立体图像中稀疏、密集、几何等信息，加以关联对象左、右图像中的特征，从未进行检测。此外添加了额外的分支预测稀疏的关键点、视点和对象尺寸在立体区域建议网络之后，将这些参数相结合进行三维对象边界框计算。然后恢复精确的三维边界框，通过使用左、右感兴趣区域的光度校准。该方法同时检测和关联对象在左、右图像中的特征信息，使用立体的Ｒ－ＣＮＮ网络来输出相应的左右图像区域建议；不需要深度数据和三维位置信息，但优于现有的完全基于图像的方法。他们用目标在左、右二维图像中框的位置和关键点来建立三维框对应顶点之间的投影关系，以确保三维定位性能的关键组件是密集的三维框。
        对于规则形状的对象，在给定粗略的三维边界框的情况下，根据对象与3D结构中心的深度关系,每个像素与三维中心之间的深度关系便可以推断出，并将左侧感兴趣区域中的密集像素映射到右侧图像，找到最佳的中心深度，从而最大限度地减少误差。

期刊文章分类查询,尽在期刊图书馆

二问题和难点
        1 问题
        尽管目前对于3D目标检测已经有不少的研究，但是在实际应用中仍然有许多的问题。首先，对物体遮挡、截断、周围动态环境的健壮性问题；其次，现有方式大都依赖于物体表面纹理或结构特征，容易造成混淆；最后，在满足准确率要求的条件下，算法效率有很大问题。
        3D bounding box是在真实三维世界中包围目标物体的最小长方体，理论上，一个3D bounding box有9个自由度，3个是位置，3个是旋转，3个是维度大小。目前，3D目标检测的数据集主要包含Jura、Pascal3D+、LINEMOD、KITTI等。
2 难点
        3D视觉目标检测的难点主要在于：
        1）遮挡，遮挡分为两种情况，目标物体相互遮挡和目标物体被背景遮挡
        2）截断，部分物体被图片截断，在图片中只能显示部分物体
        3）小目标，相对输入图片大小，目标物体所占像素点极少
        4）旋转角度学习，物体的朝向不同，但是对应特征相同，旋转角的有效学习有较大难度，
        5）缺失深度信息，2D图片相对于激光数据存在信息稠密、成本低的优势，但是也存在缺失深度信息的缺点
三解决方法
        从单帧图像中进行3D目标检测和姿态估计的方法，首先使用深度神经网络回归出相对稳定的3D目标的特性，再利用估计出来的3D特征和由2D bounding box转换为3D bounding box时的几何约束，从而产生最终的结果。一个3D bounding box由中心点坐标、三维尺度和三个旋转角所表示。
        用MultiBin的结构来进行姿态的估计，首先离散化旋转角到N个重叠的Bin， CNN网络对于每一个Bin估计出姿态角度在当前Bin的概率、Cos和Sin。在公共的特征图后网络有三个分支，分别估计3D物体的长宽高、每个Bin的置信度和每个Bin的角度估计。
        综上所述，采用纯视觉的单目相机3D目标检测方法在准确率上离预期还有较大差距,但是它成本低。未来可以考虑使用深度神经网络结合稀疏激光点云生成稠密点云对检测结果进行修正，从而提高3D检测的准确率。除此之外，目前大部分的方法都是采用一步的方法进行３Ｄ目标的姿态回归，后续研究将检测阶段分为两个或多个阶段处理，使用两步的方法来解决问题。使用更多的几何约束，结合传统的图像处理方法等，从而提升检测精度。另外，引入非监督学习的方法进行训练可以有效减少目标检测的标注数据较少的情况。
四总结
        目前依赖3D相机迎接立体检测技术发展还不是很成熟。虽然方法很多，但是过程中设计到的精度、速度、成本等指标参数还没有达到一个权衡。雷达，相比其他方法有很高的精度，但是成本非常高。然而，成本最低的单目相机的方法受限于２Ｄ的ＲＧＢ图像，造成精度不高的缺点。因此，在依赖3D相机迎接立体检测技术，还有很大的发展空间，相信通过不断的研究创新和实践，未来一定会取得更大的进展，为计算机视觉的发展奠定基础。
参考文献：
[1]龙霄潇,程新景,朱昊,张朋举,刘浩敏,李俊,郑林涛,胡庆拥,刘浩,曹汛,杨睿刚,吴毅红,章国锋,刘烨斌,徐凯,郭裕兰,陈宝权.三维视觉前沿进展[J].中国图象图形学报,2021,26(06):1389-1428.
[2]赵跃东,孙多润,郭警中,刘焕晓,傅成林,王锐,王勇.基于3D视觉传感器边缘识别和追踪算法的研究[J].锻压装备与制造技术,2020,55(02):91-94.
[3]王永森,刘宏哲. 3D目标检测技术的研究进展[A]. 中国计算机用户协会网络应用分会.中国计算机用户协会网络应用分会2019年第二十三届网络新技术与应用年会论文集[C].中国计算机用户协会网络应用分会:北京联合大学北京市信息服务工程重点实验室,2019:6.
李宇（1984-），男，汉族，贵州遵义，北京大恒图像视觉有限公司，本科，研究方向：智能视觉检测设备