深耕10年之久,上半年要开300城!百度智驾靠的是AI?
“百度智驾的优势还是在AI,包括算法、数据和人才,以及大模型时代我们对AI原生思维,对大模型算法的理解,还有我们储备的AI算力。”
3月17日,正在北京参加中国电动汽车百人会论坛(2024)的百度智能驾驶事业群组(IDG)首席研发架构师 IDG技术委员会主席王亮接受了太平洋汽车等多家媒体的采访。当被问及相比于华为、大疆等头部智驾玩家的优势时,他如此说道。
一天前,百度集团副总裁、智能驾驶事业群组总裁王云鹏也在百人会高层论坛上表示,华为智驾确实遥遥领先,只比百度差一点点了,做成这样相当不容易。
外界不禁好奇,百度的智驾实力究竟怎样?AI又将如何赋能百度智驾?智驾的未来是端到端吗?
上半年要开300城
不少人调侃说,百度自动驾驶“起个大早,赶个晚集”。但在王云鹏看来,前半句话没有错,百度投入自动驾驶起步最早,2014年就开始做了。但是后半句不对,因为自动驾驶刚刚见到曙光,真正的大集还没有开始。电动化趋势已定,智能化才刚刚开场。
王亮也深有同感。他说今天的智能驾驶的发展、普及还处在早期,消费者对于智驾的理解还比较浅,智驾功能距离成为消费者购车的头部考虑因素还欠些火候。他认为智驾的终局要以用户是不是能形成依赖、是不是能长期使用为标准。第一要支持城市点到点的驾驶;第二要全国都能跑,不能是几个样板间;第三,使用起来广度扩起来之后,体验安心感要比较一致,让用户有信赖感;第四要具备一个自身的数据飞轮和自演化能力。
“今天同时满足四个必要条件的智驾产品,严格意义上市场上还没有,各家都在努力的卷功能、卷体验。”王亮介绍说,去年百度智驾产品实现了技术能力和产品体验的双重突破,基于BEV+Transformer的技术,在极越01(图片|配置|询价)上量产了国内唯一的纯视觉城市领航辅助驾驶产品。今年一季度最新版本已经率先落地了纯视觉占据网络技术,安全性和用户体验比市面上绝大多数搭载了激光雷达的产品还要好。
之所以敢这么说,王亮表示这得益于AI的赋能。百度智驾系统的AI占比非常高、模型可以高频的迭代,过去一年中系统的核心关键模型累计迭代多达300多次,在客户SOP后的四个多月中,百度OTA给用户的智驾新增功能和体验优化项多达90多个。
另据官方信息显示,截至今年第一季度,百度城市智驾已经开了4个城市。像上海、北京、深圳、杭州的用户已经可以全量去使用。另外值得期待的是,到今年6月底,百度会做一个轻图的开城,直接把开城数量提升至300个。凡是百度地图导航能到的地方,百度的城市智驾都可以覆盖。
视觉决定智驾终局之战
2023年是城市智驾元年,百度、华为和小鹏站在了第一梯队。但与华为和小鹏不同,百度智驾走的是纯视觉路线。王亮认为,强大的视觉技术是智驾产品能够实现体验跨沟的充分必要条件,视觉能力的高低决定了产品能否走到竞争的终局。
“今天的智驾产品研发过程和交付绝对不是一锤子买卖,上市仅是起点。”王亮强调,如何在后续用户的使用过程中通过反馈驱动产品力持续提升是技术路线选择的关键考虑因素,其中比初速度重要的因素是加速度这个跟时间相关的变量。
“初速度决定了产品原型的研发速度,这点上激光雷达确实占优,厘米级精度的三维测距能力能让感知算法实现的难度大幅降低,工程师很快就能上手完成自动驾驶的闭环。”王亮坦言,相比来说,视觉的初速度就慢得多,从二维象素恢复三维信息是计算机视觉领域十几年、几十年几代科研人员在力图解决的难题。但一旦技术进入轨道,图像里天然蕴含的信息量优势会在其在迭代加速度上比所有主动光传感器都敏捷、都迅猛。同时,配合大模型、AI算法,视觉能达到的能力天花板也更高。
“在大模型时代指导AI研发的一条规律就是OpenAI在2020年提出的Scaling Laws概念,中文可以分成规模法则。随着数据大小、模型大小和用于训练的计算点数的增加,模型的性能就会提高,为了获得最佳性能,所有三个因素必须同时放大。”王亮称,目前搭载百度智驾方案的极越上使用的普通800万象素摄像头。摄像头的采样密度是今天主流激光雷达的160倍,等接下来最好的激光雷达上市之后,摄像头的密度仍然是它的20倍。
“依靠激光雷达肯定是走不到智驾终局的。”王亮强调,一图胜千言。激光雷达蕴含的信息量,相比图像(视觉)来说少得非常多,少好几个量级。它的优势在于可以很快上车。
基于上述原因,王亮认可激光雷达是拐杖的说法。“做视觉研发,工程师也有惰性,如果同时有激光雷达也有视觉,遇到困难、又在时间很紧迫、老板要求你解决问题的情况下,大部分人还是从激光雷达上想办法。好比一个很大的树下,下面小草能长大,大树把阳光遮蔽了,生长很缓慢”。
百度智驾优势在AI
过去的一年,以文心一言、ChatGPT为代表的大语言模型所呈现的智慧涌现能力,让人们看到了实现通用人工智能的曙光和路径,也加速了大模型上车。
王亮表示,相比于华为和大疆,百度最大的优势就在于AI。“传统的模型迭代范式,每个模型由主干网络backbone和任务头head构成,backbone主要负责提取图像的特征。backbone在模型层面决定了模型的泛化能力和它的识别能力。”
但过去几年,算法从规则过渡到机器学习、数据驱动、车端模型的数量快速增长,在有限算力的资源下任务和模型增加带来很多显性问题。王亮距离说,一是backbone这个核心主干网络的参数量涨不起来、算力竞争让各个单一模型的参数量都受到限制。二是计算存在冗余,多任务之间的主干往网络他们在特征提取的步骤中有大量的计算是冗余的,每个都在做,对算力是一种侵蚀。最后,多学习任务之间是隔离的,难以学习图像的通用表征,各任务需要长期补充大规模人工标注的数据,来弥补模型泛化能力的不足。
基于此,百度决心改变云端和车端的感知架构。用一个多任务共享的统一基础感知模型代替原来模型的主干网络,在预训练阶段使用多元的图像数据,训练基础大主干网络,来学习图像的通用表征。而且这里的数据不再局限于自动驾驶场景下的数据,也包括物联网的数据,包括叠加公开数据集的图像数据。王亮透露,这个模型的参数规模可以做到原来backbone的数十倍甚至百倍。
王亮告诉太平洋汽车,支撑百度自动驾驶大模型发展的背后是百度在自动驾驶领域持续高强度的研发投入。规模法则里面很重要的一条是算力,多大算力决定你的模型能走多远。在当前的训练算力方面,百度在智驾这个项目上投入的总算力资源达到了2.2eflops的量级,现在对算力的使用是上不封顶的。
当被问及百度在端到端技术方面的看法和规划时,王亮表示,特斯拉也不是一蹴而就的。他之前在BEV Transformer把视觉感知能力迭代得非常好,路上测试两年以后,开始把决策规划用机器学习的方式去解决。
“如果你前面一步没有做到,没有那么扎实,直接蹦到端到端,我个人不是很看好。”王亮判断,今年大概率能看到很多车企关于端到端的一些演示,但是量产应该是在2025年。
在采访的最后,王亮表示,十分希望特斯拉FSD能早日进入中国,但他相信它在中国的体验不会比极越、华为、小鹏更好。即便有那么多卡也需要很多时间去适配中国的道路结构、驾驶习惯。