自动驾驶BEV感知算法指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.4 基于Transformer的方法

除了上述方法外,Transformer也是将透视视角图像映射到鸟瞰视角图像的出色解决方案。

基于Transformer的方法设计一组BEV查询,结合其位置编码,利用BEV查询和图像特征间的交叉注意力机制执行视角转换。特斯拉是第一个使用Transformer将透视视图特征投影到BEV平面上的公司。

根据查询的粒度,基于Transformer的方法可分为基于稀疏查询、基于密集查询和基于混合查询三类。这里主要介绍前两类。基于稀疏查询的方法可以产生稀疏感知结果,适用于以目标为中心的感知任务,但在密集感知任务中面临挑战。基于密集查询的方法在三维空间或BEV空间中预先分配空间位置,通过BEV查询和图像特征间的交互实现密集BEV表示,支持多种下游任务。

基于稀疏查询的方法虽在目标检测中表现出色,但其3D表示缺乏几何结构意义,不适用于密集预测任务;而密集查询能为BEV空间提供丰富的表示,但大量查询导致计算负担沉重,这就要求注意力机制更高效。

DETR3D是一种典型的基于Transformer的方法。它遵循稀疏查询的框架,专注于多相机输入的3D检测,通过基于几何的特征采样过程取代交叉注意力,并使用校准矩阵将参考点投影到图像平面上,实现对应的多视图、多尺度图像特征的采样,以进行端到端的3D边界框预测。有关DETR3D的详细介绍见6.2.2节。

在Transformer中,交叉注意力表现出与数据相关的特性,一方面,其加权矩阵会受到输入数据的影响。这种对数据的依赖使得Transformer在表达上更加丰富,但同时也增加了训练的难度。另一方面,由于交叉注意力是排列不变的,Transformer需要借助位置编码来区分输入的序列顺序。

基于Transformer的方法能够利用注意力机制和位置编码实现视角转换,为感知提供有效的解决方案。为了进一步提升算法性能,越来越多的方法开始尝试将3D几何约束引入基于Transformer的透视视角到鸟瞰视角转换的框架中,以增强网络对空间关系的感知能力,提高转换效率和准确性。

根据输入模态划分,BEV感知算法可以分为以下两种类型。

基于图像的BEV感知算法:这类算法主要依赖视觉传感器,如摄像头获取的图像数据。它们将多个视角的图像序列转换为BEV特征,用于后续感知任务,如输出物体的3D检测框或鸟瞰视图下的语义分割。这类算法充分利用了视觉感知的丰富语义信息,但可能受到深度测量准确性的限制。

基于多模态的BEV感知算法:这类算法融合了来自不同传感器(如视觉传感器、激光雷达、毫米波雷达等)的信息,以构建BEV特征。这种融合可以取长补短,充分利用各种传感器的优点,弥补各自的不足。