1.3.4 基于Transformer的方法_自动驾驶BEV感知算法指南-QQ阅读中文短篇网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3.4 基于Transformer的方法

除了上述方法外，Transformer也是将透视视角图像映射到鸟瞰视角图像的出色解决方案。

基于Transformer的方法设计一组BEV查询，结合其位置编码，利用BEV查询和图像特征间的交叉注意力机制执行视角转换。特斯拉是第一个使用Transformer将透视视图特征投影到BEV平面上的公司。

根据查询的粒度，基于Transformer的方法可分为基于稀疏查询、基于密集查询和基于混合查询三类。这里主要介绍前两类。基于稀疏查询的方法可以产生稀疏感知结果，适用于以目标为中心的感知任务，但在密集感知任务中面临挑战。基于密集查询的方法在三维空间或BEV空间中预先分配空间位置，通过BEV查询和图像特征间的交互实现密集BEV表示，支持多种下游任务。

基于稀疏查询的方法虽在目标检测中表现出色，但其3D表示缺乏几何结构意义，不适用于密集预测任务；而密集查询能为BEV空间提供丰富的表示，但大量查询导致计算负担沉重，这就要求注意力机制更高效。

DETR3D是一种典型的基于Transformer的方法。它遵循稀疏查询的框架，专注于多相机输入的3D检测，通过基于几何的特征采样过程取代交叉注意力，并使用校准矩阵将参考点投影到图像平面上，实现对应的多视图、多尺度图像特征的采样，以进行端到端的3D边界框预测。有关DETR3D的详细介绍见6.2.2节。

在Transformer中，交叉注意力表现出与数据相关的特性，一方面，其加权矩阵会受到输入数据的影响。这种对数据的依赖使得Transformer在表达上更加丰富，但同时也增加了训练的难度。另一方面，由于交叉注意力是排列不变的，Transformer需要借助位置编码来区分输入的序列顺序。

基于Transformer的方法能够利用注意力机制和位置编码实现视角转换，为感知提供有效的解决方案。为了进一步提升算法性能，越来越多的方法开始尝试将3D几何约束引入基于Transformer的透视视角到鸟瞰视角转换的框架中，以增强网络对空间关系的感知能力，提高转换效率和准确性。

根据输入模态划分，BEV感知算法可以分为以下两种类型。

基于图像的BEV感知算法：这类算法主要依赖视觉传感器，如摄像头获取的图像数据。它们将多个视角的图像序列转换为BEV特征，用于后续感知任务，如输出物体的3D检测框或鸟瞰视图下的语义分割。这类算法充分利用了视觉感知的丰富语义信息，但可能受到深度测量准确性的限制。

基于多模态的BEV感知算法：这类算法融合了来自不同传感器（如视觉传感器、激光雷达、毫米波雷达等）的信息，以构建BEV特征。这种融合可以取长补短，充分利用各种传感器的优点，弥补各自的不足。