撰文 / 曹旭东 (Momenta CEO)
编辑 / 周 洲
设计 / 师 超
智能驾驶独角兽Momenta正在赴美上市的路上。
Momenta已经与全球排名前十的汽车集团中的一半,展开了量产合作。这些车企客户有上汽集团、通用汽车、丰田、奔驰等,同时这些主机厂也是Momenta的投资方。
自2016年成立,Momenta经过7轮融资,累计融资额近13亿美元。其资方既包括上述战略合作车企,有博世这类一级供应商,有互联网大厂如腾讯、马云的云锋基金、小米系的顺为资本,还有知名的投资机构淡马锡、IDG、GGV纪源资本。
Momenta从创立之初就确立了“一个飞轮,两条腿”的战略。“一个飞轮”指的是数据驱动的AI飞轮,“两条腿”指的是Mpilot量产自动驾驶方案和MSD完全无人驾驶方案,既做智能辅助驾驶,又做Robotaxi。这两条腿之间产生很好的协同,量产自动驾驶带来数据流,给到完全无人驾驶,而完全无人驾驶反馈技术流、技术的更新迭代,给到量产自动驾驶,使得量产的产品在市场上更有竞争力,不断为用户刷新更好的使用体验。
6月15日下午,在第十六届中国汽车蓝皮书论坛智能驾驶专场,Momenta CEO曹旭东作了主题为《通往自动驾驶的可规模化路径》的演讲。
他在简介了Momenta的产品以及一个“一个飞轮,两条腿”的战略之后,提出了智能驾驶的摩尔定律。
曹旭东认为,能够实现城市NOA的高阶智能驾驶今年进入爆发期,是因为智驾的摩尔定律。
智驾摩尔定律包含两部分,一个是智驾硬件的摩尔定律:同等算力情况下,每两年硬件成本减半。两年前实现城市NOA的BOM(Bill of Material,物料清单)成本是15000-20000元,现在差不多是7000-10000元,2026年大概是4000-5000元,特斯拉FSD的BOM成本已经做到4000元了。硬件有极限,整个BOM实现4000元出头之后再往下降就非常难,也不是特别有必要。一个是智驾软件的摩尔定律:(每两年)软件体验提升十倍。两年10倍,四年100倍,六年1000倍,智驾的体验会好到超乎大家的想象。
他觉得未来能够跟上智驾摩尔定律的公司能够生存下来,能超越摩尔定律的公司可以成为一家卓越的公司。
以下是曹旭东演讲实录。
曹旭东:首先非常感谢受邀参加这个活动,非常荣幸,非常感谢各位老师和各位领导,有机会能给大家汇报一下我们公司的一些思考。
先看一个视频,是关于我们产品的集锦,对我们公司有一个直观的介绍。因为一个(智能驾驶)公司的本质就是做产品,产品作为载体给用户创造价值,(视频)能看一下我们的产品是什么样子的,以及给用户创造什么样的价值。这是我们的城市领航,现在可以做到有路就能开,有导航就能开,有高德的导航能开得更好。
可以看到,中国的路况挺复杂的,既有大城市的大路,也有小城市的小路,非常丰富。我现在出差最大的一个乐趣就是,去到每一个城市都(体验)有我们(智驾产品)的自动驾驶的车,从机场到(拜访)客户,而且专门选那种刁钻难走的路,非常有意思。
这个是去年年底的冬测。可以看到在逆光扬雪冰雪路面的情况下,AEB也可以刹停,保障用户的生命安全。我们有一个非常重要的愿景,就是“十年挽救百万生命”,现在AEB每周有对应的KPI来跟踪触发的数量。这里是用户的一些反馈。(播放视频)更好的人工智能,更好的生活,希望越来越好的智驾能够给大家带来更安全、更安心、更好的生活体验。
简要地介绍一下我们公司。我们公司成立到现在有8年时间,获得了很多车企的支持,比如上汽、通用汽车、奔驰、丰田等,通过非常好的合作和非常好的交付,我们建立起来了很好的信任关系,最终(这些车企)也成为我们的战略投资人。我们公司现在大概有1300人,办公地点很多,最大的两个办公室主要在北京和苏州,另外在上海、杭州、广州、深圳都有办公室,海外在德国斯图加特、日本丰田市(Toyota City)、美国桑尼维尔(Sunnyvale,硅谷重镇)都有办公室。
我们公司很重要的一个文化是以客户价值为中心,只要能跟客户建立深度的量产合作,我们都会在客户旁边去建办公室。因为智驾是一个特别复杂的系统,所以我们在建办公室的时候,尤其是客户的第一个平台、第一辆车量产的时候,我们有一个很重要的原则,就是跟客户肩并肩作战、肩并肩办公,这样才能及时沟通、及时解决(客户)第一个平台第一台车量产过程中的各样问题,建立起两个组织之间合作的信任。
做完我们公司的基础情况汇报之后,我来汇报一下公司的一个思考:就是怎么能够实现可规模化的L4。其实这个思考不算新东西,公司2016年成立的时候思考的很多内容其实都在了。我们公司刚成立的时候就希望能够实现可规模化的L4。
什么是可规模化的L4?不是说在某一个地方、某一个区域有画好的高精度地图,几十辆车或者几百辆车不停地跑啊跑,虽然这有可能叫做L4,但是不是可规模化的L4。
可规模化的L4是全国都能开甚至全球都能开,并且能够达到人类(司机)的安全水平甚至超过人类(司机)的安全水平——达到10于倍人类(司机)的安全水平,这个是我们希望实现的可规模化的L4。
可规模化的L4最关键的就是安全。我们觉得哪怕是乘用车要实现可规模化的L4,安全水平也应该达到10倍于人类司机的安全水平。而如果是做Robotaxi(L4)的话,10倍的安全水平可能还不够。我们做过计算,如果Robotaxi在几个城市要大规模商用,至少需要近10万台车,10万台车可能需要100—1000倍人类司机的安全水平才能达到足够的安全性,因为根据我们的观察Robotaxi对于安全事故的接受度是更低的,大家可以参考最近Cruise Automation(GM旗下无人驾驶车公司)最近的一起事故,就可以看到消费者、社会对于Robotaxi的安全阈值是非常非常高的。
那怎么达到这么高的安全性呢?很重要的就是要解决数百万个长尾问题。这数百万个长尾问题是非常具有挑战性的。举个例子,我们有一次路测的时候刚好遇到了逆行,但逆行的不是一辆车,逆行的是一头大象。逆行的三轮车中国很常见,逆行的大象在中国路测的时候也会遇到,这些都是需要解决的长尾问题,这样的长尾问题有数百万个,那就决定了很难用rule-based(规则导向)或者是Human-driven(人为驱动)的方式去解决问题。
如果是Human-driven的话,你可以用100个人、1000个人去解决100、1000个头部问题,但是很难用这些人去解决数百万个长尾问题。这就引出了我们第一个关键的洞察:数据驱动的飞轮,用这个数据驱动的飞轮自动化地解决数百万个长尾问题。
我们现在的数据驱动的飞轮已经迭代到第五代了。第一代能够自动化地解决50%的问题,第二代70%,第三代90%,第四代95%,现在第五代超过99%的问题都可以自动化地去解决,这样极大地提升了整个研发迭代的效率、解决这些长尾问题的效率。
第二个关键的洞察是:数据驱动的飞轮一定需要数据,那我们到底需要多少数据才能够实现规模化的L4呢?
我们在2016年公司成立之前就提出了这个问题。当时我们算了答案之后非常吃惊,也非常惊讶。我们计算完之后,需要1000亿公里的数据。1000亿公里的数据,如果是一年跑10万公里的出租车,大概一年需要100万台车;如果是乘用车的话,大概需要500万台以上跑一年,才有足够的数据去验证这套系统是不是达到了可规模化的L4。
当然,训练是一个必要条件,还不是一个充分条件,充分条件的话有可能这些数据就够了,也有可能需要更多的数据才能够实现可规模化的L4。这就引出了我们公司很重要的一个战略叫“一个飞轮,两条腿”。
我们根据前两个洞察判断,如果要实现可规模化的L4,第一,整个软件算法架构、整个研发体系必须是一个数据飞轮的驱动,才有可能实现可规模化的L4;第二,一定得量产。没有量产不可能有几百万台车,没有几百万台车的话根本没有办法实现规模化的L4。
基于这两个洞察就引出来我们的战略,其实非常通俗,叫做“一个飞轮两条腿”。其中,一条腿是Mpilot量产自动驾驶方案,另外一条腿是MSD——完全无人的驾驶方案,我们的整个算法是按照MSD的标准和要求设计的,之后再应用于量产。
这“两条腿”有很好的协同。量产自动驾驶带来数据流,给到完全无人驾驶,而完全无人驾驶反馈技术流、技术的更新迭代,给到量产自动驾驶,使得量产的产品在市场上更有竞争力,不断给用户刷新更好的使用体验。
介绍完“一个飞轮两条腿”的战略之后,介绍我们的飞轮。
飞轮有三个因子。第一个是数据驱动的算法,第二个是海量的数据,然后是闭环自动化。
我们先介绍一下海量的数据。我们现在的数据量已经比较大了,去年年底大概是5万台车(上)量产的高阶智驾,今年年底大概差不多(能覆盖)30万台车,明年年底大概是100到150万台车会量产我们的高阶智驾,到了2028年的时候,我们估计累计的量应该会超过1000万台。
数据的增速也是一个指数级的增速,大家可以看一下这个短小的视频,这是2022年量产之后,数据很快地从一开始只覆盖经济发达的沿海地区,到覆盖全国,再到覆盖全国红得发黑(表示数据增速极快),其实就用了大概一年多一点的时间。相信随着车的增加,整个数据的增速是非常快的。
有了这些海量数据,大家会逐渐发现一旦大规模量产之后,稀缺的就不是车或者稀缺的就不是数据了。
车和数据就有点像沙子或者有点像铁矿石,真正稀缺的能力是如何把这些矿藏——而且这个矿藏含矿率可能不是那么高,它可能是贫矿,更像贫瘠的矿产,你如何在比例只有千分之一甚至万分之一的沙子、矿石里面,把这个铁提取出来,把铁提取出来之后再炼成钢,再把钢造成发动机,最后再把发动机装到车上。这一整套的数据闭环的能力就变得越来越重要、越来越稀缺了。
当有了海量的数据之后,在我们体系内部叫做闭环自动化,在不同的公司有不同的叫法,(有)叫“数据闭环”、“数据工厂”等等,这个能力就变得尤其稀缺、尤其重要,而且非常关键,尤其是整个自动驾驶软件算法架构在逐渐往大模型方向发展的时候,这个基础设施的建设就变得尤其重要。
我们的基础设施包含了车端数据基础设施FDI,还有云端的数据基础设施CDI,再到自动化的数据标注,再到训练集群。训练集群大概有1万多张GPU,再到仿真的(里程数)。我们现在每周能够做的仿真里程数已经接近2000万公里。另外,我们每月OTA的数量也很快。
介绍完我们的数据和闭环自动化之后,关于整个算法架构到端到端的大模型,现在整个AI发展的趋势是逐渐由小模型到大模型,由专用的小模型到多个专用的小模型组合起来去完成任务,变成了一个更加通用的大模型去完成任务,不管在自然语言(处理)、计算机视觉还是在自动驾驶,这个趋势都在发生。这里我跟大家也汇报一下我们在自动驾驶上的一些实践。
我们现在在自动驾驶上已经做到了算法5.0,在这之前有(算法)2.0、3.0、4.0。
跟大家汇报三点:第一,大家可以看到在(算法)2.0的时候,尤其是感知的部分,我们有多个小模型。到3.0的时候我们把融合、跟踪和预测合并成了更大一点的模型,能够完成更加通用的任务。到了4.0就进一步合并成更大的、更通用的模型。这个趋势基本上也是行业里非常先进的一些玩家共同探索的一个方向。
第二,在规划的这部分,我们在行业里面属于探索的先头兵。我们实际上在2020年的时候就已经开始用Deep Learning(深度学习)来做planning(规划)了,最终把这套东西做到比较成熟能够量产上车,是在2023年上半年,这个时间点甚至比特斯拉用Deep Learning做planning的时间更早。去年,特斯拉V11的planning还是rule-based planning,但是今年V12已经升级到端到端的Deep Learning的planning。大家可以看到一个趋势,在planning的部分,逐渐用深度学习去替代传统的基于规则的、基于优化的planning,这是第二个趋势。
第三个趋势就是端到端的大模型,这个词现在也非常热。我汇报一下我们的架构设计,可能跟特斯拉有相同的部分,也有不一样的部分。
最不一样的部分是我们的端到端分了两个支路。一个支路是端到端的大模型,类比于人类的长期记忆。另外一个支路分成了两阶段,DDOD加上DDLD相当于是感知的部分,DLP是Deep Learning的planning,是认知的部分。这个支路相当于是人类的短期记忆。
为什么一定要构建一个长期记忆、构建一个短期记忆呢?其实最主要的原因是为了更好的、更低成本的、更短周期的试错,因为用深度学习来做自动驾驶的话,它是一个开始,不是一个结束。开始的话意味着未来还会有很多的探索和升级,如何把整个试错成本降低,这是生物演进也需要达到的一个效果,那对于我们来说也需要达到这个效果。
埃隆·马斯克的推特说他去年花了20亿美金构建他的数据中心,今年计划用100亿美金去做自动驾驶的训练和推理。可以看到,自动驾驶的大模型训练其实试错的成本非常高,训练一个模型可能要花百万美金甚至几百万美金,如果方法错了或者数据错了,那几百万美金就打了水漂了。
我们的设计是短期记忆的训练成本比较低,因为真正需要探索的是DLP(Deep Learning的planning)部分。所以在短期记忆上很重要的一件事情就是验证这个方法是不是正确以及用于训练的数据是不是正确,是不是好的方法,是不是好的数据。这样短期记忆的训练成本会比较低,训练的周期也会比较短,能够比较快速地去解决一个问题、更新一个feature、验证一个方法、验证一批数据。最终我们被验证过的好的方法、好的数据,在积累一段时间之后再应用到我们端到端的大模型上(就是长期记忆),这样能够保证长期记忆的训练基本上一次训练就能训练对,一次训练就能训练好。这其实也是跟人的长期记忆、短期记忆很像,人去探索环境的时候,最先更新的是短期记忆,当这个短期记忆学习到一些成功的经验之后,这些成功的经验再更新到人的长期记忆中去,这样就能够更加低成本、短周期地去适应环境,更加低成本、短周期地去探索更好的方法以及更好的数据。这就是我们的端到端大模型整个算法架构的思路。通过这样一个做法,比直接完全用端到端的大模型去试错,训练的成本应该能小10到100倍。
介绍完端到端大模型的算法架构和背后的思考,这里有一个简短的视频,来看一下现在能够取得的效果。(播放视频)
我们发现端到端的模型对于施工道路的变化和非结构化的道路学习,以及适应的能力、泛化的能力都是非常强的。现在我们这套端到端的大模型系统已经在一些客户(的车)上量产了,包括上汽的智己、腾势,还有昊铂。时间有限,看更多的视频还不如上车体验,未来有机会希望能够邀请各位老师、各位领导一起上车体验。
这里我再快速介绍一下一个思考,就是智驾的摩尔定律以及高阶智驾的规模化。
我们认为当前是高阶智驾的一个引爆点。去年如果是拐点的话,今年就是引爆点。作为类比,有点像电动车的2020年。大家知道2020年到现在2024年,电动车的渗透率增速非常快,同样,能够实现城市NOA的高阶智能驾驶也进入了爆发期。
为什么会有爆发期?我们认为主要因为是智驾的摩尔定律。
智驾的摩尔定律是我们内部的一个说法,它包含了两部分,一个是智驾硬件的摩尔定律,另外一个是智驾软件的摩尔定律。
硬件的摩尔定律就是每两年硬件的成本会降一半,这是一个经验公式。
比如两年前能够实现的城市NOA,基本上一套BOM成本,加上域控,加上传感器,包括摄像头、激光雷达等,大概需要15000-20000元。但现在的话,实现一套城市NOA 的BOM成本差不多能做到7000—10000元,再过两年到2026年的时候,能够实现的BOM大概是4000—5000元。
4000—5000元这个数字也不是我们瞎想的。大家仔细去研究一下特斯拉FSD,你会发现它的BOM成本已经做到4000元了。所以有特斯拉在引领这个行业,我相信在2026年的时候整个行业能够实现城市NOA智驾的BOM基本上能够做到4000元出头。当然硬件的摩尔定律是有极限的,整个BOM做到4000出头再往下降的话就非常难了,也不是特别有必要了。
另外一个方面,sky the limited——没有天花板的就是智驾的软件摩尔定律。由于大规模的量产、大模型的上车,由于非常好的数据工厂、数据闭环自动化的迭代,我们看到的一个趋势就是每两年智驾的水平至少提升10倍。
10倍是什么感受?可以举一个例子,最近有一个客户来拜访我们,体验了我们NOA的产品,他说他也试了另外一家非常牛的产品,但是两年前他开那辆车的话就觉得汗流浃背,两年后用我们的产品,就觉得有头等舱的体验。并不是说我们比另外一家做得好,另外一家在过去的两年应该也提升了10倍,如果他再去体验的话也应该会有头等舱的体验,而是说整个行业的头部公司每两年都能把智驾的体验从两年前的汗流浃背提升到头等舱的体验。
可以畅想一下,两年(智能驾驶体验提升)10倍,四年(提升)100倍,六年(提升)1000倍,如果(经过)未来两年、两年再两年,那这个智驾的体验会好到超乎大家的想象。
最后简单总结一下:我们觉得未来能够跟上(智驾)摩尔定律的公司能够生存,能超越摩尔定律的公司能够成为一家卓越的公司。
希望能够跟各位老师和各位领导建立起更好的合作关系,希望能够一起打造卓越的产品,一起来超越摩尔定律。
好,谢谢大家。