当视觉感知持续进化,激光雷达会被淘汰吗?

2023-05-22 15:47:48

来源:创投视界

实现自动驾驶的路线到底会是怎样的?不同路线有不同的坚持者。


(资料图片)

5月17日,在第十届国际智能网联汽车技术年会(CICV2023)上,清华大学博士郑文钊认为,视觉路线会是实现自动驾驶的大趋势。

视觉方案的优势很明显,摄像头发展技术成熟,成本低,而且无需对不同传感器采集的多模态数据进行融合。

当然,劣势也同样明显。图片只能提供二维信息,无法感知到三维深度,而且,摄像头受天气条件影响明显。

2021年,特斯拉提出BEV+Transformer路线,成为行业追随的热点。发展到今天,当多家方案商与主机厂纷纷跟进,BEV+Transformer再次成为业界焦点。

而特斯拉自己,则已从BEV升级到OccupancyNetwork,进一步优化了视觉系统的弱点。

CICV上,郑文钊则介绍了其研究组提出的TPV模式。TPV基于BEV模式扩展,凭借有限的计算增量,实现了对物体整个三维立体空间信息的编码。

根据展示,采用基于TPV的TPVFormer模式,可以有效从2D图片中还原出三维空间的基本结构,并且能有效识别微小的物体与罕见的物体。

也就是说,采用TPVFormer模式,可以较低的成本,对二维图像进行更准确的三维重建,因而能大大提高视觉感知的精确度。

01.

纯视觉or激光雷达?重要的依然是成本

那么,这是不是意味着激光雷达就没用了?郑文钊认为是的。

这是视觉派的观点。

曾有一位视觉方案供应商的技术专家向智驾网表示,基于第一性原理,很多做技术的人都坚信马斯克的视觉路线一定能成功。

Tier1可以说是中间派。主机厂需要什么,企业就提供什么。

智驾网在会场咨询了一位某国际Tier1企业的感知算法负责人,他表示目前高端车型上主机厂仍倾向于使用激光雷达方案,而在更追求性价比的车型上,视觉方案则更受主机厂欢迎。但确实,越来越多主机厂开始尝试视觉方案,毕竟成本放在那里。但如果激光雷达成本能降下来,应该还是没问题。当被问及该企业内部对未来的路线规划时,这位负责人表示有待更新。

而激光雷达企业自然是坚定的多传感器派。禾赛科技CEO李一帆就曾在发布会上用了大量篇幅阐述他认为激光雷达的重要性,以及激光雷达对安全的提高到底是“Nicetohave”还是“Musthave”。

郑文钊在演讲中对比了视觉路线和多传感器融合感知路线的优缺点。

纯视觉路线采集的信息仅有图像语义,多传感器融合方案则除了图像语义外还包括了三维点云。两者各有优缺点。

纯视觉方案的优点是相对成本低,无需对多模态数据进行融合,同时可采用视觉通用大模型进行开发。缺点则是无法提供三维深度,同时也导致测距精度低,且由于摄像头本身的特性,在低可视场景下性能下降。

而多传感器融合方案的优点则是能提供稀疏的点云深度信息,测距精度高,抗干扰能力强。缺点也很明显,成本高,数据融合复杂,可能存在冲突,而且目前来看,不同模态数据的模型算法尚未统一。

两者的技术难点,纯视觉路线是要对2D图像进行有效的3D场景重建,而多传感器路线则需对多模态数据进行融合与对齐。

两种方案各有优劣,除去技术难点,剩下的主要问题便是,要不要用高成本来换取多传感器的高可靠性?或者,也可以理解为,激光雷达的技术难点攻克以及成本下降速度能否跟得上视觉路线技术难点的攻克?

可见,激光雷达最大的敌人,依然是“成本”二字。

02.

视觉派在不断前进

首先我们来看视觉路线。

什么是BEV?什么是OccupancyNetwork?什么又是TPV?

BEV是特斯拉2021年提出的技术路线,全称BirdEyeView,鸟瞰图。简单来说,其原理就是将摄像头采集的图像通过矫正后,统一输入到神经网络进行处理,并将其投影到自上向下视角的向量空间中进行拼接,形成反映车辆周边环境的鸟瞰图。

这种方式的优势是能够把车辆近处的感知统一放到一个平面中,扩大了感知的范围。但其缺点是,鸟瞰图依然是2D视图。

郑文钊表示,BEV是压缩了整个三维空间中的高度维,虽然这一维在自动驾驶中信息含量较少,但还是会包含一些信息。因此,鸟瞰图模式下,同样无法感知到高度或深度信息。

其优势是空间复杂度较小,需要的计算量也相对较小。缺点则是对物体的识别仍然基于提前的标定和学习,对于没有见过的异形物体就不容易识别。

2022年,特斯拉又提出了OccupancyNetwork,其原理是将整个场景划分成微小的立方体或体素,而障碍物则以3D空间内块状物体的形式进行展现,通过预测每个体素是否被占用,就能判断车辆需不需要躲避,而不必判断占用的是什么物体。其优势是对三维空间的描述非常精确,但同时空间复杂度也很高,对算力要求自然也高。

而郑文钊所在小组提出的TPV则是Tri-PerspectiveView的简称。具体而言,就是将BEV的但平面视图推广成了TPV的三个平面。

它并不是体素那样完全能表示结构的立方体空间,而只是三个平面的集合,并不能编码结构信息,但可以用来编码整个三维立体空间的信息。简单来说,就是BEV只能表现鸟瞰图,体现的只有长宽信息,TPV则加上了高度维的信息,同时可以表现两个侧平面。因为是三个平面,其复杂度也只是BEV的三倍,而不会像体素那样大大增加。

在用TPV表示三维空间时,任意一个点都会被投影到三个平面上,将这三个平面上的特征相加作为各点的特征,在投影之后再对其进行后续的神经影视建模处理,以得到更加精细的特征,也可以使用差值实现无限的分辨率,从而实现高效的对三维空间整体的建模。

郑文钊表示,TPV的整个模型是比较轻量化的。相较于特斯拉的OccupancyNetwork,TPVFormer使用的训练监督、训练数据和训练时间都大大减少,而其得到的结果是,即便对一些微小的,罕见的物体也能很好地预测出来。

这将帮助视觉感知更好地实现图像从2D到3D的建模,从而提高其可靠性。

另一方面,郑文钊认为激光雷达的点云具有稀疏性,难以识别远处的行人等小物体,而图像数据拥有更丰富的信息。不过,以目前激光雷达的点云密度来看,识别行人显然问题不大。

在视觉方案末尾,我们再简单提一下Transformer,它是一种基于注意力机制(Attention)的神经网络模型,它不像一般的序列到序列的转换模型是按照串行顺序来处理数据,而是通过注意力机制,去挖掘序列中不同元素的联系及相关性,来处理输入与输出之间的依赖关系。

Transformer需要大模型,同时也需要大量的数据来支持训练。

03.

激光雷达的核心优势是安全

多传感器方案的优势,郑文钊认为主要是定位准确,且检测精度高。

李一帆也在此前禾赛的发布会上表示,所有传感器中,激光雷达具有最高的感知确定性。其鲜明的优势是不受光线影响,能直接获取三维空间距离,提升感知置信度。

而对消费者来说,激光雷达最大的作用依然是提高安全度。

有趣的是,李一帆的观点可以说其实和视觉派也有相似之处,即随着时间的推移,技术的发展,视觉方案的安全性和激光雷达方案的安全性会越来越接近。即李一帆认为的绝对差距在缩小。

但二者无限接近的时间点会是在什么时候,仍是个未知数。而在那之前,激光雷达相较于视觉路线的安全性依然是值得投资的。

李一帆表示,虽然激光雷达相对来说成本更高,但lifematters,对生命来说,安全度能提高多少都很重要。李一帆认为现阶段,激光雷达让安全性至少提高了50%。

从本质上来说,我认为这其实和我的观点还是一致的。也就是说,如果激光雷达的成本能下降到和视觉方案相当,或者甚至更低(这种可能性似乎不大),那么,在视觉方案成熟到安全性与激光雷达方案基本一致时,二者会是并存的路线,更适应哪个路线就使用哪个路线。

而在此之前,在高阶智能驾驶方案中使用激光雷达,其实是以较高的成本来换取更高的安全性。是否要使用激光雷达,也是一个权衡取舍的问题。

至于这个时间点会是在什么时候,暂且可以期待一下最新版的特斯拉FSD。此外,国内也有多家企业表示基于双目视觉方案开发了城市NOA,效果如何,也要看其量产落地时的表现。

关键词: