文|HiEV 大蒜粒车研所,作者 | 张祥威,编辑 | 德新
落地城市 NOA,是今年最重磅的自动驾驶大战。而 BEV 感知,目前看来是通往城市 NOA 的必经之路。
【资料图】
年内落地 BEV,已经是国内自动驾驶头部玩家的共识。
其实,BEV 是很早就提出的算法,又称鸟瞰图或上帝视角。直到近几年,特斯拉将其用于自动驾驶领域,国内车企随之布局,才受到更多关注。
国内涉足 BEV 的,造车新势力有小鹏、蔚来、理想等,科技公司有百度、华为、毫末智行等。尤其今年 4 月,国内新能源汽车龙头比亚迪宣布年内落地 BEV,将大戏推向高潮。
为何要落地 BEV?主要是自动驾驶场景发生了变化。
高速场景相对简单,城市场景更为复杂,感知任务规模大幅增加,需要更多地利用深度学习。
感知层面,传统的 2D 检测已经力不从心,只有 BEV 能更好地完成城市场景感知任务,并为下一环节的规划、控制打好基础。
落地 BEV,最直观的检验就是城市 NOA 功能能否在多个城市大规模推送。这场感知算法的重大转变,考验的是车企的算法自研功底。
进入城市,BEV 感知算法兴起
故事从特斯拉重写 Autopilot 软件代码开始。
2019 年,特斯拉推出高速场景下的 NOA(Navigate on Autopilot),小鹏、蔚来等造车新势力紧随,兴起了一小股高速 NOA 技术潮。
直到 2020 年 8 月,马斯克透露,团队正在重写 Autopilot 的底层代码。
又过了两个月,特斯拉推出 FSD Beta ,可以支持在城市道路场景下的 NOA。支撑城市 NO 功能的,便是全新的 BEV 感知算法。
为什么会出现这一变化?
毫末智行技术副总裁艾锐告诉 HiEV," 在特斯拉推出 BEV 之前,大家使用的是前视相机,周视用的很少。高速上,车密度不大,侧后方用一些雷达也够了。进入城市后,车流量开始密集,仅看正前方也不够了。BEV 的出现, 核心在于需要做 360 度的感知。"
特斯拉重写代码的同年,蔚来和小鹏也开始转向。
蔚来引入原 Momenta 研发总监任少卿,任的背景是计算机视觉研发,加入蔚来后负责算法团队,开始在 Mobileye 方案外启动自动驾驶自研。
小鹏也开始研发基于 XNet 的 BEV 感知架构。2021 年的 1024 科技日上,吴新宙透露,在过去 6 个月里,每一个预测和规划代码全是重写的。
对于两家重写代码这件事,均胜电子副总裁郭继舜向 HiEV 表示," 周期性重写代码是对产品和系统认知提升后的必然阶段。在工程化方面,该踩的坑基本都要踩一遍,大家都需要阶段性更新代码和架构。"
从已有信息看,基于 BEV 研发全新算法,小鹏们的做法相似。大家均是从静态 BEV 网络算法、动态 BEV 网络算法部署算法。
静态 BEV 解决的是道路结构还原,感知对象是车道线、道路边界、停止线,可以解决部分摄像头被遮挡、车道线模糊等问题。
动态 BEV 解决的是交通参与者的还原和预测,感知对象车辆位置、姿态、尺寸、速度,可以在车辆同时出现在多颗摄像头视野内,可以稳定地追踪和感知出物体的距离和速度。
在 BEV 出现前,传统 2D 检测的好处是整个计算非常直观,但整个投影过程都是使用软件的方式,没办法形成端到端,会出现信息丢失、误差等问题。
BEV 的到来,将让小鹏们获得更强的 360 度感知能力。
不过,这里面的难度并不小。
复杂的代码,以及昂贵的数据标注
BEV,全称Bird ’ s eye view,本质上多个目标前融合感知方案。
简单理解,它是将摄像头等传感器采集的 2D 为主的图像数据,转化为 3D 坐标空间下的数据,从而实现对物理世界的真实还原。
特斯拉的做法大致是:
基于纯视觉,利用 8 个摄像头采集数据,通过深度学习的主干网络 Backbone 对各个摄像头进行特征提取,再通过 Transformer 将 2D 图像转化为 3D 空间。应用的技术并不新潮。
Backbone 的本意是人的脊梁骨,在深度学习中被引申为主干网络的意思,其主要作用是就是提取图像的特征。
Transformer 最早在 2017 年由谷歌提出,是利用注意力机制(Attention)来提升模型训练速度的模型。将 Transformer 发扬光大的是 GPT,也就是 Generative Pre-trained Transformer。
通过BEV 和 Transformer,特斯拉开始获得全新的 " 上帝视角 " 下的数据。并在此基础上为数据加上了时间戳,形成了 4D 空间。以用于对目标物测速,乃至对目标物的运动轨迹进行预测。
可以说,BEV 改进了自动驾驶看物理世界的视角,可以更高效、准确地获取感知数据,这为后面的规划和控制提供了基石。
国内的自动驾驶玩家已经认可了这种方式,并且纷纷布局。
与特斯拉不同的是,国内玩家之前的方案中,在摄像头之外增加了更多的传感器和定位系统,比如超声波雷达、激光雷达、高精度地图等。
方法论相似,挑战在于融合困难,以及更多的代码量、数据标注工作。
写代码是一项繁重的任务。
小鹏汽车自动驾驶副总裁吴新宙披露,城市 NGP 的代码量是高速 NGP 的 6 倍、感知模型数量是 4 倍、预测、规划、控制相关代码量是 88 倍。
为 BEV 的数据进行标注,同样需要大量的工作。
举个例子,要构建实时语义地图,需要对数据进行结构性训练,基于 BEV 模型做数据的标注、分割、分类。仅标注一项,根据毫末智行 CEO 顾维灏预测,BEV 的模型大概需要标注 1 亿公里的数据。
智能驾驶数据服务商柏川方面告诉 HiEV,数据标注行业单人单月的综合成本约为四千元,千人规模的标注团队一年成本要达到 1 亿元。
另一位从事数据标注的业内人士向 HiEV 表示, " 要标注 1 亿公里的数据,实际上会有失效率,按照 50% 的失效率计算,假定都是简单场景,每人每天标注 2km,需要一万人的团队标注至少四年的时间。 "
好在,特斯拉已经探了路。
早前,特斯拉有一支千人规模的人工标注团队,后来开始增加自动标注和虚拟仿真等工具。
对此,上述数据标注从业人士表示," 特斯拉的自动标注是行业风向标,其预标注技术目前行业最优。加入自动化标注模型后,假定可以提效 80%,可以将 1 万人团队的标注时间缩减到一年。"
小鹏、毫末智行等已经感受过人工标注的成本之昂贵,开始探索自动标注。其他各家,也可以进行借鉴。
BEV 带来的变化:方案 " 减配 ",芯片合作更紧密
BEV 带来的第一个变化,是让自动驾驶配置开始缩减。
在没有布局 BEV 之前,国内车企是最早通过高精地图来实现自身定位。车规级激光雷达成熟后,车企又加入了激光雷达。
布局 BEV 算法后,一些车企们开始由原来的堆砌配置,转为缩减配置。
大家发现,BEV 可以实时生成语义地图,进而替代高精度地图,甚至还可以去掉超声波雷达。
事实上,小鹏早期并不打算去高精度地图。吴新宙曾提到,对于城市场景,高精地图的鲜度非常关键,小鹏汽车正在和高德地图一起努力,希望发布的时候能够做到天级更新高精度地图的能力。
不过,耗资几千万可以买下高速道路的高精度地图,但要买下城市场景下的高精度地图,费用又是另一个级别。
更何况,获取地图审批资质的效率,也会耽误自动驾驶向多个城市推送的进程。最终,车企们不得不进入自动驾驶的纵深地带,利用技术甩掉高精度地图的拐杖。
这里面也有一定挑战。
"BEV 去高精度地图,很多公司不一定能搞定,需要做大规模的云端场景重建、自动化的元素提取。另外,纯拓扑的任务还是很难,很多时候会因为遮挡、车道线不清晰而难以实现。" 宏景智驾高级工程经理柴可宁告诉 HiEV。
至于 BEV 是否会去掉激光雷达?
特斯拉的答案是, 利用 Occupancy 占用网络,以及 4D 毫米波雷达的点云信息,就能替代激光雷达。
国内是另一重景象。
国内目前尚未兴起去激光雷达的苗头。艾锐认为,激光雷达不会由于 BEV 算法的出现而被替代。
" 在夜间,摄像头根本看不见。激光雷达是一个物理传感器,可以主动发射信号。对高端车型来说,可以让车辆多一重安全性。对于中低端产品来说,成本相对较高,只有追求极致性价比,才会去传感器。" 他解释道。
其实,基于纯视觉还是多模态,本质上不是技术问题,而是一个商业成本问题。从技术角度,多模态的效果肯定更好,但从成本角度,多模态的上车搭载量会少。
BEV 带来的第二个变化,是需要芯片厂商更好地适配,与车企形成深度合作。
因为,BEV 方案比较考验芯片对于算子的支持能力。
除了特斯拉采用自研 FSD 芯片外,头部自动驾驶玩家更多地 基于英伟达 Orin X 落地 BEV 方案,且以双 Orin X 为主,算力高达 508TOPS。
对此,艾锐表示," 英伟达的芯片基础计算单元是 CUDA,非常小,也非常灵活,对算子的支持能力非常强。"
而如果算力小了,要实现同样的帧率,就需要做特别的算子优化。
事实上,一套标准的 BEV 算法,现在的很多芯片都不支持,大家在用各种各样的算子去替换它们,这就需要芯片厂商和主机厂深度配合。
今年 4 月,比亚迪在上海车展宣布基于地平线征程 5 的自研 BEV 方案将在年内量产。目前,地平线可以向车企提供 BEV 参考算法,且正在布局 Occupancy 占用网络。双方的合作,将是基于征程 5 落地 BEV 的首个案例。
最后,BEV 技术的强大感知能力,不仅吸引了乘用车竞相布局,也在商用车里面开始应用。
比如,挚途科技的 BEV 方案,便针对商用车型车身长、检测盲区较大的特点,向车企提供摄像头选型和安装位置方案,可以实现前方 300 米范围的检测,且增加了车身和近距离的感知冗余。
头部车企闯关 BEV 感知时,其他传统车企会面临更大的压力。
后来者,自研还是外包?
对于 BEV 方案,发力较晚的车企其实有着更多选择。
一种是自研。
要做 BEV 方案,方向大致已定。需要选一套传感器方案,基于大算力芯片进行开发。另外,还需要自动标注闭环系统,以及用于数据训练的智算中心等等。
时间上,做 BEV 的周期相对造车更短。
" 主机厂从传统 2D 检测转到 BEV 感知,如果要把数据准备都算上,快的话需要一年时间。" 艾锐说。
投入事项明确,周期相对较短,这决定了车企可以进行自研。
我们也注意到,除上述几家布局 BEV 的车企外,其他玩家也在准备入局。
今年 1 月,长安汽车智算中心 GPU 算力扩容集成项目开始招标。2 月,吉利星睿智算中心在湖州长兴揭牌。
另一种是与供应商合作。
如果看整个国内汽车市场,会发现自动驾驶方案供应商也有其存在价值。
除了造车新势力覆盖的 30 万以上的高端市场外,中低端市场十几万以上 30 万以下的车,仍然是主流。
据 HiEV 了解,毫末智行将基于十几 TOPS 的芯片运行 BEV 算法," 硬件成本上,几千块钱就可以做到城市 NOA,类似的产品很快也会出现。"
一些之前布局 L4 的科技公司,比如小马智行、元戎启行、商汤绝影等,也在推出 BEV 的方案。这些公司做 BEV,优势在于之前的算法更易于迁移。
理论上,这些公司不会面临华为向车企提供解决方案时的 " 夺走灵魂 " 的质疑。
" 华为太大了,它有能力做任何事,包括造车。我们很小,而且非常开放,车企不需要担心失去灵魂。" 一位自动驾驶解决方案供应商的高管表示。
" 在 BEV 上,我们愿意赋能车厂,是服务者的心态。很多时候,车厂对我们感兴趣的就是真值系统,它一年有几千万的标注预算,搭载真值系统后,可以降到几百万,肯定会感兴趣。整体上,车企对我们的感知算法很感兴趣。" 柴可宁说。
" 从技术演进趋势看,不是零和博弈。作为一个解决方案供应商,我们的算法、云端中心还是有一定的领先性。" 商汤绝影量产行车智能驾驶研发负责人蒋沁宏表示。
如果车企不想重复造轮子,至少在可见的一段时间,与解决方案供应商合作,尽早进入自动驾驶的赛道是一个好的选择。
基于 BEV 的城市 NOA,年内将落地百城
还记得 2020 年下半年,蔚来推出基于 Mobileye 的高速 NOP 功能,小鹏则基于英伟达 Xavier 推出了高速 NGP。
如今,三年时间不到,大家又开始比拼基于 BEV 感知架构落地城市 NOA 的效率。
一个例子可以看出各家竞争的激烈。
最近,小鹏发布了一项名为 " 通勤模式 " 的功能,又被称为微缩版城市 NGP,可以在无图方案的四五线城市使用。
" 听说我司预告城市通勤模式之后,有两家友商已经快速决策分别从宣传和实际行动上致敬一下子。" 小鹏汽车自动驾驶产品高级总监刘毅林在社交平台上发文表示。
今年以来,各家陆续公布基于 BEV 的城市 NOA 落地计划。
小鹏计划今年下半年,将在大部分无图城市开放变道、超车、左右转能力;
蔚来已经推送的 Banyan2.0.0 版本,切换为了 BEV 架构,下半年将推出带有城区能力的 NAD Beta 版本;
理想的城市 NOA 将在第二季度内开启推送,并于年底前完成 100 个城市的落地推送;
其他玩家,毫末智行、华为、比亚迪,也将在今年落地 BEV 方案。
中国有 600 多个城市,按照各家计划,年内将有接近六分之一也就是近百家城市可以使用城市 NOA 功能。
对于这些大力投入的玩家来说,有的需要维护一早立起的自动驾驶一哥的江湖地位,有的蓄势通过城市 NOA 规模落地打一个后来居上的漂亮翻身仗,也有的要证明自己在自动驾驶领域也是遥遥领先,也有的要借助车企,为更大的市场立一个标杆产品,一切都将在下半年出现定论。
各家竞逐城市 NOA 落地时,还有一家真正巨头正在候场。目前,特斯拉 FSD Beta 已经在海外城市范围内推送,进入国内只是时间问题。
如王传福所说,新能源汽车的上半场是电动化,下半场是智能化。
在电动化竞争阶段,大家还有传统造车工艺可供依仗,智能化的竞争阶段,将是包括 BEV 感知、规划、控制,以及智能座舱等在内的各个点位的全方位竞赛,更加考验车企的软件研发能力。经历 BEV 算法落地大战后,车企的核心技术将再次重塑。
关键词: