大模子 自动驾驶,生长到什么阶段了-香港期货开

2023-11-01 13:52上一篇 |下一篇

上个月,马斯克乘坐一辆搭载了FSD V12自动驾驶系统的Model S,举行了一场45分钟直播,虽然中央也泛起了一些小插曲(好比差点闯了红灯),但整体效果依然异常惊艳。

视频中,这辆Model S能够轻松绕过障碍物,识别蹊径种种标志,根据马斯克的说法,这些操作重新到尾都是通过端到端AI神经网络实现的,而非预先编程。

特斯拉的希望会给海内智驾行业带来哪些启发?我们距离自动驾驶的终局尚有多远?本期险峰主题沙龙,我们将和几位行业专家与初创公司CEO,一起聊聊大模子 自动驾驶的未来。

我们请到了:

杨   洋  觉非科技智能驾驶副总裁

安向京  行深智能首创人

柴思远  智谱AI解决方案总监

温力成  上海人工智能实验室研究员

我们聊到了:

特斯拉的伟大乐成,会让纯视觉推翻掉激光雷达吗?

海内厂家和特斯拉的差距有若干?未来能否追得上?

大模子上车,尚有哪些障碍?

大模子对汽车智能化的影响,会有什么时机点?

特斯拉会是自动驾驶的终局吗?

本次流动由险峰投资人徐真主持,为了保证内容质量,我们对嘉宾举行了匿名整理,并打乱了谈话顺序,请勿对号入座。

也迎接更多同伙加入险峰社群,一起探讨大模子 自动驾驶的新偏向。

01、特斯拉的伟大乐成,会让纯视觉推翻掉激光雷达吗?

险峰:先聊一个老生常谈的问题,当初特斯拉选择了纯视觉蹊径,是由于激光雷达的成本太高,然则海内厂商普遍照样选择了摄像头 激光雷达的组合,那么这次FSD V12的乐成,会不会让海内厂家也放弃掉激光雷达的蹊径?

A:我以为一定会,由于特斯拉已经把这条路走通了,人人没有不跟的原理。

这和GPT的生长逻辑类似:今年海内大语言模子创业如火如荼,许多大厂纷纷下场,立下flag要做一款能对标GPT4的产物,由于人家OpenAI已经把器械做出来了,已履历证的器械,你再去做就异常work,但这也意味着之前那些老的手艺蹊径很快会被放弃掉,同样的原理,对应到未来自动驾驶也是一样的。

B:首先明确一点,纯视觉方案是*够用的,着实人类自己也没进化出激光雷达,人眼本质就是先感知周围的2D图像,经由人脑处置后举行3D深度估算,最后对路况做出判断,以是只靠双目视觉完全可以满完驾驶需求。

然则,作为一个消费者,由于现在还没有一种*的 L4 到 L5 级其余自动驾驶方案,那么对照高等的车型上,配一些激光雷达作为冗余备份,这个需求也是客观存在的。

举个例子,之前特斯拉泛起一些撞车的事故,好比前面有一辆翻倒的白色货车,AI就以为那是天空了,这种错误我们人眼也会犯,但若是有激光雷达,可能就会制止掉。

以是,激光雷达并不是说一定要有或者没有,主要是看用户需求,是更关注成本,照样更关注平安。

C:作为企业,我平时对激光雷达接触对照多,首先从现实应用的角度,激光雷达确实能解决一些纯视觉解决不了的问题,好比夜晚低光照,或者逆光炫光的环境,纯视觉都有自然的劣势,这时激光雷达就是一个很好的弥补。

回到现实来说,我们也和多家主机厂深入交流过:人人之以是不愿意选择激光雷达,确实是由于成本太高,然则真正用过之后,工程师都说稀奇爽,现实效果上看照样有它存在的价值。

固然,由于成本高,现在也泛起了一些激光雷达的替换方案,好比4D毫米波,着实就是介于传统毫米波和激光雷达之间的产物;另外,纯视觉方案是不是就一定没问题,我以为现在判断也还太早,可能还需要履历更庞大的场景、更多的里程之后再考察。

D:就我的明晰,大模子的焦点能力是通过Transformer确立起各数据之间的关联,适才几位先生也就提到,纯视觉*的瑕玷,它是一个二维的传感器,而激光雷达是三维的,但本质上,二维场景和三维场景是有关联的。

中瑞宏芯半导体完成近亿元融资

那我们是不是能通过大模子,把2D和3D数据关联起来,让它从某种意义上更深度的明晰驾驶场景,发生一些纷歧样的涌现?我以为可以拭目以待,若是这一无邪的到来,可能2D视觉也好、3D激光雷达也好、 4D毫米波也好,这些数据本质上是统一个数据,无论用哪一个数据,或许都可以能解决自动驾驶的问题。

我想到另一个问题,现在各主机厂都是拼传感器数目,我有若干颗激光雷达、摄像头、毫米波雷达;更多的传感器数目自然也意味着对算力的要求更高,是100、200照样500TOPS,然则事实上,特斯拉已经用实践证实,对算力需求可能并不需要那么高。

我们总是以为,未来汽车会越来越智能,然则大模子驱动下的自动驾驶,是不是会让汽车越来越不智能?好比现在的算力漫衍,一部门在云端,一部门在车端,那么未来随着大模子的生长,云端算力越来越高,车端反而就不需要太智能,汽车只要忠实地执行云端的指令,可能就已经足够了,这是我的看法,谢谢。

02、海内厂家和特斯拉的差距有若干?未来能否追得上?

A:从这次FSD V12 的显示,连系我对海内主机厂的一些领会,这个差距可能会在一到两年左右,能否追的上主要是看两个方面:

首先是算法层面,我们知道特斯拉用的芯片算力只有144TOPS(万亿次操作每秒),海内厂商至少都是 500 甚至上千TOPS,以是特斯拉对算力的行使效率是异常恐怖的,这是*个需要追赶的。

此外,已往数年里,已经有数百万辆特斯拉汽车在网络真实环境里的蹊径数据,数据的积累是第二个需要追赶的,固然大模子在这内里也可以施展一定的作用,好比在虚拟天下举行更好的仿真模拟,削减这种数据采集的周期。

03、大模子上车,尚有哪些障碍?

A:首先一定是算力,现在市场上可以部署大模子的算力平台异常少,海内的一些头部主机厂也在努力结构,但现在看就只有英伟达和特斯拉,其他的算力平台暂时还没有投入使用。

这里所说的算力不是车端算力,而是云端服务器算力,这是大模子部署的条件,现在训练一个文本大语言模子,就已经需要上万张的A100卡,若是再把图像信息也加进来,对算力的要求只多不少;好比说像wayve ,我领会到他们是跟微软的 Azure 相助,用了许多张卡,训练了良久才获得的效果。

第二点就是时间,好比传统的图像训练,可能有个百万帧级别,就能训练出一个小模子,但若是是大模子再涉及到多模态的话,背后是要有数万万帧的训练量;这其中尚有一个问题是,业界对于这种多模态的大模子训练,包罗文本和视频的对齐,着实都还在探索的阶段,没有一条像GPT一样很明确的路,说你根据这条路走,就一定会获得涌现能力,只能是靠不停实验。

以是无论算力照样时间,背后都代表着需要大量的资金,需要异常有实力的玩家才气去做这件事情。

04、大模子 智能化对汽车的影响,会有什么时机点?

A:一个偏向是大模子带来车内交互方式的改变。着实现在的智能座舱本质照样手机的延续,然则我们的双手要开车,以是车内场景自然适合语音交互而不是触屏,那怎样把语音跟多模交互连系起来,再加入一些手势识别、眼球识别,最后把这些信息转换成车可以识其余指令,这是未来多模态大模子可以期待的事情。

从我们自己看来,现在整个生态和手艺已经到了一个快发作的阶段,可能只差一个类似iPad上《水果忍者》这样的杀手级应用,由此带来一些基于车用大模子的应用层开发,对这个生态我照样异常看好的。

另一个偏向可能暂时还没有被太多人关注,就是当车辆完成智能化之后,内里许多的算力,着实是可以作为一个算力中央或者网关来使用的,好比现在英伟达的显卡很贵,那是不是可以把车上这些算力行使起来,用漫衍式盘算替换一部门云盘算,可能也是一个偏向,需要有人搭建一些基础设施和手艺工具来解决。

险峰:这里稍微弥补一下险峰的看法,我们对自动驾驶照样对照乐观的,以为未来一定会有新的时机泛起。

着实适秀士人的讨论,都基于一个认知:即一定要用大模子的方式去训练自动驾驶算法,因此才需要算力、数据等大量资源的支持。但就像昔时在渐进式从L2到L4、一步式直接到L4的讨论一样,未来我们是否可以先用一些专用小模子去解决部门特殊场景?它可能不像大模子需要那么高成本,但可以先跑起往复解决现实问题

整个自动驾驶算法训练、测试的链路异常长,若是能在其中一些环节降低成本,企业着实就可以获得营收,这可能是一家初创公司相对低投入、对照好切入的点。

着实特斯拉强就强在,能把学术上的器械现实地做出来应用到车上,虽然工程化问题是自动驾驶迈不外的一道坎,但现在说已经到算法的终局形态也为时尚早,蹊径虽然在收敛、但也一直在迭代,永远期待有更优解。

05、特斯拉会是自动驾驶的终局吗?

险峰:从生长历程来看,特斯拉2020年引入BEV,21年引入Transformer,再到今天它展示的 FSD V12,特斯拉一直在把学术最前沿的器械不停地工程化,到今天它基本已经摸到了自动驾驶的及格线,甚至是到了七八十分的水平,那么特斯拉下一代的world model,会是自动驾驶的一个*解决方案吗?人人对对此怎么看?我们不妨来畅想一下。

A:我以为汽车的智能化,焦点不仅仅是省掉了一个驾驶员,而是让运输载具实现了信息化。好比一些封锁厂区内,无人载具可以和工厂的TMS或者MES 系统深度地融合,直接成为它的一部门,以前你需要调配一些第三方物流,现在完全不需要,运力会酿成像交流电,插上插座就能用一样利便。

从这个角度上来讲,未来的无人驾驶会导致汽车的形态发生分化,会凭证差异场景降生出许多差其余物种,而不是像现在一样,只有乘用车、商务车、货运车之分;好比未来厂区里的运输车,会和公路上跑的运输车完全纷歧样,不仅是外观差异,能力也完全差异,以是我不以为特斯拉的蹊径会是一个*解决方案,它会是一个思绪、一个方式论,但未来一定还会有其余方案不停加入到系统中来。

B:我也以为,现在谈终局可能尚有点早,就像适才主持人说的,特斯拉能够比我们超前两到三年,探索出行业大偏向可能是什么,推动整个行业加速往终局的偏向上走,这些孝顺我以为怎么夸都不为过,但要真正实现 L4 甚至 L5 的*模式,一定也需要靠整个行业一起的起劲和孝顺。

C:太远的终局确实欠好判断,我以为首先能确定的是,大模子*的推理能力,一定是能够应用到自动驾驶中的,包罗它能给你一些更好的决议,而且还能给你注释出缘故原由,这个现在已经有一些公司在做了;但大模子的学习效率和速率也还需要迭代,好比现在整个云端要很大算力、许多算据,这照样一个成本很高的事情,尚有很大的优化空间,解决了这些问题之后,才有可能让大模子给每小我私人提供一些个性化的服务,好比更个性化的交互,或者你更喜欢的驾驶气概等等。

D:稀奇赞成适才嘉宾的一句话——自动驾驶终局的本质,是“若何让机械人明晰我们所处的真实天下”,包罗特斯拉的world model,也都是在现在自动驾驶的范式之外,探索有没有更好地去推理和明晰这个天下的方式。

以是,若是未来有一套算法,能够让通用的机械人异常好地去明晰我们的天下的时刻,自动驾驶这件事也就迎刃而解了。

这方面,我以为不是学界在引领业界,而是反过来,业界在向导学界,由于业界才气接触到真真相形下驾驶的一手资料和数据,从而能发现一些我们在实验室里模拟不了的器械,以是,自动驾驶终局需要学界和业界配合去起劲,不停增强相同,对此我小我私人照样异常乐观的,希望这一天尽早到来。