通用人工智能的序章:端到端模型风口已至

2024-04-29 16:46

在2024年北京车展上,端到端模型迅速成为智能驾驶领域的热门话题,占据了行业的焦点。

自特斯拉推出其端到端技术以来,该技术方案便在业界引起了广泛的讨论和争议。经过一年的发展和市场验证,特斯拉的FSD V12版本已经赢得了行业专家的普遍认可,其在模拟人类驾驶行为方面的精准度有了显著提升。

这一进展促使越来越多的厂商开始信任并积极投入到端到端智能驾驶解决方案的研发中。在本届车展上,众多企业展示了他们在端到端技术上取得的突破性进展和创新成果。

端到端技术的浪潮已经到来,标志着智能驾驶新时代的序幕,为汽车行业的未来描绘了一幅充满机遇的广阔蓝图。随着端到端技术的兴起,量产能力正面临前所未有的挑战。在这一技术对数据需求不断增长的背景下,量产的速度和效率正成为行业竞争的新焦点。

然而,提出端到端模型并计划最先量产的是一家成立仅有5年的创业公司元戎启行。该公司CEO周光宣布已经和多家主机厂合作,计划今年将端到端模型推入消费市场。

为什么是端到端?

端到端智能驾驶技术致力于使智能驾驶系统具备与人类司机相似的智能和问题解决能力,这与传统的模块化架构有本质的区别。

模块化架构将感知、决策和规则作为独立的模块,依赖工程师编写的固定规则,并且模块间的交互协议是基于工程师经验抽象出来的。这种设计不仅会在信息传递时造成损失,还会使得整个系统程序复杂化,难以维护,并且过度依赖人工标记的高精地图,这严重限制了智能驾驶技术在多样化场景中的应用和落地速度。

与此相对,端到端技术通过整合智能驾驶系统中的感知、预测、规划等模块,并利用海量数据进行训练,实现了自我学习和优化,从而在数据输入到决策指令输出的过程中保持了高效率和准确性。这种技术能够更好地模拟人类司机的决策过程,显著提升了智能驾驶系统的适应性和反应速度。

元戎启行CEO周光透露,公司早在2020年就开始减少对高精地图的依赖,并于2023年深入部署端到端模型上车。元戎启行与特斯拉对人工智能的理解有着异曲同工之妙,这一认知与周光本人的技术出身密不可分。

周光毕业于美国德州大学达拉斯分校人工智能和机器人方向,曾在德州仪器、百度美国负责自动驾驶相关项目。用周光的话说,他早在10多年前就已从事AI方面的工作了,而当时全世界还没有什么像样的人工智能应用。

周光的“反共识思维”

引领元戎启行迈出先行步伐的是周光的“反共识思维”。最初,当周光提出“无图”(无高精度地图)方案时,行业普遍感到困惑,因为大多数竞争对手的方案都集中在高精地图技术上。

同样地,当他提出端到端模型时,行业也充满了质疑,认为没有足够的数据积累是不可能实现的。在周光看来,人工智能领域的发展往往真理掌握在少数人手中。他认为,每次技术选择都像是站在一个分叉路口,一旦选择错误,可能意味着一年甚至几年的努力和投入都将化为泡影。

这正如一些企业在L4级别的自动驾驶技术上选择错误路线,导致之前的投入都白白浪费了。

周光观察到,一些AI公司,包括大语言模型公司,很多由互联网时代的人重新创业,可能缺乏人工智能的学术背景。相比之下,创始人有AI学术背景能够真正理解AI技术的企业在技术决策层面优势更强,因为每次技术的选择都至关重要,错误的决策可能导致巨大沉没成本。 

同时周光认为,在人工智能2.0时代,丰富的行业经验有时反而会成为创新的阻碍,智能驾驶本质上是人工智能的应用,应更多地听从AI Explorer的指引。

尽管元戎启行在技术路线上并未落后,但周光坦言,在数据量方面与行业领先者存在差距。他指出,元戎启行的“无图”方案在能力上与特斯拉的FSD V11相近,但与V12版本相比则存在差距,V12版本在模拟人类驾驶行为方面更为精准。周光认为,这一差距将会在量产之后缩小。 

目前,元戎启行已确定了三家量产客户。与传统依赖高精地图的方案不同,端到端模型对数据量的需求更为庞大,这推动了元戎启行向量产迈进,以便积累足够的数据来训练和优化模型。在高阶智能驾驶领域,元戎启行的方案以高性价比和可控性著称。 

打开通用人工智能之门

周光进一步分析说,“端到端的高阶智驾市场尚未成为红海,真正能提供技术能力的公司并不多。”他表示,元戎启行既有成本优势,同时还能确保汽车制造商(OEM)在选择技术方案时的“安全性”。

对于降本方面,周光认为,尽管激光雷达在识别异型障碍物方面有其作用,但在数据量充足的条件下,可以通过优化算法减少对激光雷达的依赖,从而降低成本。端到端模型的特性使其不仅适用于智能驾驶,还能迁移到其他机器人领域,实现技术的广泛适用性。

元戎启行的愿景是实现物理世界通用的人工智能,而汽车的智能驾驶只是这一宏伟目标的起点。周光认为,现阶段已经摆脱了以简单规则为驱动的AI1.0时代,正在开启基于数据驱动的AI2.0时代,而AI的3.0时代就是通用人工智能时代。

人工智能的2.0时代包括三个领域:一是自然语言处理领域,代表产品是OpenAI开发的ChatGPT;二是生成式人工智能领域,代表产品可能亦是OpenAI开发的Sora;三是端到端模型的智能驾驶,代表企业包括特斯拉、元戎启行等。

周光提出,为了构建通用的人工智能,必须将大语言模型、端到端模型和生成式人工智能技术进行融合,以赋予系统全面感知、还原、理解和操作世界的能力。在这一愿景中,端到端模型扮演着至关重要的角色。

他指出,尽管以ChatGPT和Sora为代表的大语言模型和生成式人工智能技术在数据收集方面取得了进展,但这些数据并不直接来源于物理世界的真实情况,特别是在对临界态状态的捕捉和诠释上存在不足。

所谓的临界态状态,指的是物体的物理状态在变化发生的关键瞬间。如Sora生成的视频中果汁泼溅的瞬间,虽然能看到泼溅前后的情景,但关键的临界过程——果汁从杯中流出的那一刻——却常常缺失。在机器人感知中,这个短暂而关键的临界状态非常重要。

智能驾驶领域的端到端模型能够有效捕捉并展现这种临界状态。因为在车辆行驶过程中,会产生大量符合现实物理规律的真实临界状态数据。因此,周光认为,端到端模型是实现物理世界中通用人工智能的关键组成部分,它能够利用来自现实世界的真实数据,帮助AI更好地理解和响应各种复杂情境。

目前,元戎启行正积极筹备C轮融资,并与多家整车企业合作,推动端到端智驾方案的规模化量产。公司已经用数以百万计的视频、多样性丰富的数据集去训练系统,同时与多家头部芯片企业达成深度技术合作,为性能提供保障。

 闻涛/文

版权与免责:以上作品(包括文、图、音视频)版权归发布者【元戎启行】所有。本App为发布者提供信息发布平台服务,不代表经观的观点和构成投资等建议
Baidu
map