青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

端到端能帶來(lái)新春天?深扒分裂的無(wú)人駕駛行業(yè)

無(wú)人駕駛, 真的能落地嗎?

人類研發(fā)無(wú)人駕駛,已經(jīng)消耗了無(wú)數(shù)的時(shí)間與資金。到了今天,事故頻發(fā)、燒錢(qián)無(wú)止境、進(jìn)度緩慢,引發(fā)了眾多不解與質(zhì)疑:無(wú)人駕駛是否是一場(chǎng)騙局,甚至,行業(yè)已死?

這個(gè)行業(yè),真的是我見(jiàn)過(guò)最分裂的行業(yè)之一,各個(gè)派系觀點(diǎn)各不相同、互相瞧不上、互相指責(zé),神仙打架之后,又各干各的,各踩各的坑,各倒各的閉,各花各的錢(qián)。

結(jié)果就是,在2024年之前,無(wú)人駕駛走入了寒冬。

但這個(gè)寒冬,隨著馬斯克號(hào)稱“通過(guò)端到端AI技術(shù)“重構(gòu)了特斯拉的FSD,并宣布要進(jìn)軍無(wú)人駕駛出租車(Robotaxi),似乎又出現(xiàn)了一些新的生機(jī)和希望。

端到端能否帶領(lǐng)我們走向真正的無(wú)人駕駛呢?自動(dòng)駕駛中定義的L2與L4之間真的相隔甚遠(yuǎn)嗎?如今無(wú)人駕駛技術(shù)發(fā)展到哪一步了?純視覺(jué)與多模態(tài)之爭(zhēng),真的沒(méi)有盡頭嗎?

為了探究無(wú)人駕駛行業(yè)到底發(fā)展如何,我們歷時(shí)3個(gè)月,采訪了全球市場(chǎng)上最前沿的無(wú)人駕駛公司,包括Waymo,Cruise的前核心員工、前特斯拉FSD工程師、一二級(jí)市場(chǎng)投資人等多達(dá)十多位自動(dòng)駕駛界的專業(yè)人士。

我們發(fā)現(xiàn)這個(gè)行業(yè)依然割裂,很多技術(shù)路線業(yè)內(nèi)并沒(méi)有達(dá)成共識(shí)。

這個(gè)系列文章我們將從感知、算法、產(chǎn)品、運(yùn)營(yíng)、經(jīng)濟(jì)、法律等多個(gè)角度,全方位一起來(lái)探討如今的自動(dòng)駕駛技術(shù)的最前沿現(xiàn)狀。

本期文章我們先全面聊聊技術(shù),下期會(huì)從運(yùn)營(yíng)與經(jīng)濟(jì)角度解析。

一、自動(dòng)駕駛是什么?

我們先來(lái)做個(gè)概念區(qū)分:無(wú)人駕駛和自動(dòng)駕駛的區(qū)別是什么?

根據(jù)智能化程度的不同,自動(dòng)駕駛被分為L(zhǎng)0到L5共6個(gè)等級(jí):

L0為無(wú)自動(dòng)化,L1指駕駛輔助,L2指部分自動(dòng)駕駛,L3指有條件自動(dòng)駕駛,L4指高度自動(dòng)駕駛,L5指完全自動(dòng)駕駛,即真正的無(wú)人駕駛。

我們之后提到的Waymo和Cruise,以及侯曉迪做的無(wú)人卡車都屬于L4級(jí)別,特斯拉FSD屬于L2級(jí)別,但馬斯克號(hào)稱的特斯拉Robotaxi,卻是L4級(jí)別的。

所以,目前在這個(gè)產(chǎn)業(yè)中,人們說(shuō)無(wú)人駕駛,一般指的是L4的公司,因?yàn)楝F(xiàn)在還沒(méi)人能做到L5;而一般說(shuō)自動(dòng)駕駛,則是包括了所有級(jí)別,是更泛的一個(gè)稱呼。

我們?cè)賮?lái)看看自動(dòng)駕駛產(chǎn)業(yè)是怎么開(kāi)始的。

盡管早在100年前人類就開(kāi)始探索無(wú)人駕駛,但公認(rèn)現(xiàn)代自動(dòng)駕駛正式起源于2004年美國(guó)軍方的DARPA挑戰(zhàn)賽。

經(jīng)過(guò)幾年發(fā)展后,形成了感知(Perception)-規(guī)劃(Planning)-控制(Control)這樣的運(yùn)行鏈路。其中感知模塊包含了感知(Perception)和預(yù)測(cè)(Prediction)。

感知層需要通過(guò)雷達(dá)、攝像頭等傳感器獲取前方路況,并預(yù)測(cè)物體的運(yùn)動(dòng)軌跡、實(shí)時(shí)生成一張周圍環(huán)境的地圖,也就是我們?cè)谲嚈C(jī)上常見(jiàn)的鳥(niǎo)瞰圖,再將這些信息傳遞給規(guī)劃層,由系統(tǒng)根據(jù)算法來(lái)決定速度與方向,最終再下放到執(zhí)行控制層,控制對(duì)應(yīng)的油門(mén)、制動(dòng)和轉(zhuǎn)向機(jī)。

后來(lái)隨著AI的興起,人們開(kāi)始讓機(jī)器自己去學(xué)習(xí)如何開(kāi)車,先讓算法到仿真的數(shù)字世界里開(kāi)車,等仿真訓(xùn)練到一定程度,就可以開(kāi)始上路測(cè)試。

而最近這兩年,隨著特斯拉將“端到端”方案應(yīng)用在FSD V12的版本中,感知-規(guī)劃-控制的運(yùn)行鏈路也開(kāi)始改變。

接下來(lái)我們著重來(lái)聊聊自動(dòng)駕駛產(chǎn)業(yè)在感知這一層面的兩派技術(shù)路線:純視覺(jué)派與多模態(tài)融合派,這兩個(gè)派別在過(guò)去很多年一直在打架,各說(shuō)各的好,我們來(lái)講講它們的恩怨情仇。

二、感知篇:純視覺(jué)Vs.多模態(tài)融合

目前汽車主流的感知方案分為兩種。

第一種是不少公司采用的多模態(tài)融合感知方案,會(huì)將激光雷達(dá)、毫米波雷達(dá)、超聲波傳感器、攝像頭、慣性測(cè)量單元等傳感器采集的信息進(jìn)行匯總?cè)诤希瑏?lái)判斷周圍環(huán)境。

回到我們上一章說(shuō)到的DARPA挑戰(zhàn)賽,2004年第一屆中,雖然沒(méi)有任何一輛車完賽,但一位名叫David Hall的參賽者在比賽中意識(shí)到了激光雷達(dá)的重要性,在比賽結(jié)束后,他創(chuàng)辦的Velodyne開(kāi)始從做音響轉(zhuǎn)向做激光雷達(dá)。

當(dāng)時(shí)的激光雷達(dá)還是單線掃描,只能對(duì)一個(gè)方向測(cè)距,而David Hall發(fā)明了64線機(jī)械旋轉(zhuǎn)式激光雷達(dá),可以360度掃描環(huán)境。

后來(lái)他帶著這臺(tái)旋轉(zhuǎn)式的激光雷達(dá),參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺(tái)頭頂著5個(gè)激光雷達(dá)的車完賽并取得了冠軍。

但這并不是David Hall的車……他的車輛中途因機(jī)械故障退賽了,不過(guò)他的表現(xiàn)確實(shí)讓大家意識(shí)到了,激光雷達(dá)、是個(gè)“外掛”。

到了2007年第三屆DARPA挑戰(zhàn)賽中,完賽的6支隊(duì)伍中,5只都用到了Velodyne的激光雷達(dá)。至此,激光雷達(dá)開(kāi)始成為自動(dòng)駕駛界的香餑餑,Velodyne也成為了車載激光雷達(dá)的龍頭企業(yè)。

張航(Cruise高級(jí)主任科學(xué)家):

現(xiàn)在不管是Cruise、Waymo,基于L4在做的一些解決方案,都是基于激光雷達(dá)為主了,它可以直接拿到位置信息,這樣的話對(duì)于算法本身的要求,就是相對(duì)會(huì)比較低一些,然后很多可以直接通過(guò)傳感器來(lái)拿到這些3D的信息,這樣對(duì)系統(tǒng)的魯棒性,還有對(duì)于安全性,一些長(zhǎng)尾問(wèn)題會(huì)比較輕松。

另一個(gè)技術(shù)派別就是以特斯拉為代表的純視覺(jué)方案了,只靠攝像頭采集環(huán)境信息,然后利用神經(jīng)網(wǎng)絡(luò),將2D的視頻轉(zhuǎn)換成3D的地圖,其中就包含了周邊環(huán)境的障礙物、預(yù)測(cè)的軌跡、速度等信息。

相比激光雷達(dá)方案直接生成3D地圖,純視覺(jué)多了一道2D轉(zhuǎn)3D的過(guò)程,在張航看來(lái),純靠“視頻”這種缺乏3D信息的訓(xùn)練數(shù)據(jù),會(huì)給安全性帶來(lái)一定挑戰(zhàn)。

張航(Cruise高級(jí)主任科學(xué)家):

它需要大量的訓(xùn)練數(shù)據(jù)去學(xué)出缺乏3D的信息,這樣的話缺乏監(jiān)管,因?yàn)闆](méi)有一個(gè)參照物,很難去拿到一個(gè)現(xiàn)實(shí)中的一個(gè)ground truth(真值數(shù)據(jù)),如果完全通過(guò)這種半監(jiān)督的學(xué)習(xí)方法,想要達(dá)到系統(tǒng)的一個(gè)安全性,我覺(jué)得是比較難的。我覺(jué)得特斯拉主要目的還是控制成本,包括修改一些換擋的機(jī)制,都是為了節(jié)約一些零部件方面的成本。

但在特斯拉的前AI工程師于振華看來(lái),選擇純視覺(jué)并不只是節(jié)約成本那么簡(jiǎn)單。

1. 多即是亂?

于振華(前特斯拉AI工程師):

其實(shí)特斯拉原來(lái)的自動(dòng)駕駛系統(tǒng)是有毫米波雷達(dá),傳感器融合其實(shí)是一個(gè)很復(fù)雜的算法,就是它做出來(lái)了并不一定好。

我當(dāng)時(shí)有一輛車,是最后一批有毫米波雷達(dá)的車。在2023年的時(shí)候,我的車進(jìn)行了一次保養(yǎng),服務(wù)工程師就自動(dòng)把我的雷達(dá)給去除了。這一件事情的結(jié)論是什么呢?去掉毫米外雷達(dá)不是為了成本,因?yàn)槲业能囈呀?jīng)有毫米波雷達(dá)在那放著了。根源的原因是純視覺(jué)已經(jīng)勝過(guò)毫米波雷達(dá)了。所以特斯拉是在做減法,把一些他認(rèn)為不需要的冗余的事情去掉,或者說(shuō)累贅的事情去掉。

于振華認(rèn)為,如果融合算法做不好,或者通過(guò)純視覺(jué)就已經(jīng)能達(dá)到足夠好的效果了,那更多傳感器反而成為累贅。

接受我們采訪的很多L4從業(yè)者也同意,信息并不是越多越好,反之,傳感器收集到的太多額外的無(wú)效信息會(huì)加劇算法的負(fù)擔(dān)。

那么馬斯克一直倡導(dǎo)的光靠攝像頭這一種傳感器,到底行不行呢?

2. 少即是多?

馬斯克說(shuō),既然人類僅通過(guò)兩只眼睛就能開(kāi)車,那么汽車也可以僅憑圖像信息來(lái)實(shí)現(xiàn)自動(dòng)駕駛,但業(yè)內(nèi)對(duì)于純視覺(jué)派的擔(dān)心一直是,視覺(jué)欺騙,在過(guò)去這確實(shí)帶來(lái)了不少事故。

比如特斯拉將白色卡車識(shí)別為天空、把月亮識(shí)別為黃燈,又或者理想將廣告牌上內(nèi)容識(shí)別為汽車,導(dǎo)致高速急剎追尾等事故。

這些案例是否意味著,少了深度信息的純視覺(jué)方案,存在先天性不足呢?

于振華(前特斯拉AI工程師):

多個(gè)信息流確實(shí)能提供更多的信息,但是你要解答一個(gè)問(wèn)題,難道攝像頭本身的信息不夠嗎?還是算法挖掘信息的算法能力不足?

比如說(shuō)緊急剎車、在城市道路的時(shí)候有頓挫感,其實(shí)根源就是它對(duì)周圍物體的速度估計(jì)、它的角度估計(jì)不足,如果是這個(gè)原因,那確實(shí)激光雷達(dá)要比攝像頭好很多,因?yàn)樗軌蚪o你提供更直接的信息,就是攝像頭本身其實(shí)也給你信息了,只不過(guò)我們的算法不足夠好,能夠挖掘出這樣的信息。

于振華不認(rèn)為視覺(jué)欺騙的根本原因是攝像頭的信息不足夠,而是算法不足以處理或挖掘攝像頭給的信息。他認(rèn)為,特別是在特斯拉FSD V12算法的推出后,更證明了當(dāng)算法得到了巨大優(yōu)化,攝像頭信息的挖掘和處理就得到了顯著進(jìn)步。

于振華(前特斯拉AI工程師):

今天的FSD V12它不是完美的,有很多的問(wèn)題,但是我到目前為止沒(méi)有發(fā)現(xiàn),哪一個(gè)問(wèn)題是由于傳感器不足。當(dāng)然在V12之前確實(shí)很多是由于傳感器不足,但是今天V12是沒(méi)有這個(gè)問(wèn)題。

但是,L4的從業(yè)人員就有不同的觀點(diǎn)了。他們認(rèn)為攝像頭就是有天然劣勢(shì)的。

張航(Cruise 高級(jí)主任科學(xué)家):

我個(gè)人覺(jué)得是有難度的,我覺(jué)得不一定是算法本身的問(wèn)題。

首先這個(gè)攝像頭本身不像人眼這么復(fù)雜,每個(gè)攝像頭它有一些參數(shù),它有它的局限性。

然后就是算法本身的話,人不需要知道200米范圍內(nèi)所有的車的動(dòng)向都在哪里,我只需要知道哪幾輛車、哪幾個(gè)行人可能影響到我的車的行為,我只關(guān)注在這幾個(gè)點(diǎn)上就夠了,我也不需要很大的算力,可能短期不能夠通過(guò)算法來(lái)達(dá)到這個(gè)高度,我覺(jué)得激光雷達(dá)才作為是一個(gè)方式的補(bǔ)充吧。

從事L4研究的張航認(rèn)為攝像頭無(wú)法與人眼媲美,主要原因在于攝像頭的焦距和像素是固定的,而人眼的精度非常高而且可以自動(dòng)變焦。同時(shí)人類跳躍式的思考模式,短期內(nèi)無(wú)法應(yīng)用在計(jì)算機(jī)上,所以使用激光雷達(dá)才能補(bǔ)充攝像頭的缺陷。

但市面上也有其他的看法,認(rèn)為除了視覺(jué)信息,其他傳感器也會(huì)帶來(lái)干擾信息。

比如說(shuō),激光雷達(dá)也存在自己的缺陷,由于是通過(guò)激光測(cè)距,在面對(duì)一些反射物體、雨雪天氣,或者其他車發(fā)射的激光時(shí),會(huì)對(duì)激光雷達(dá)帶來(lái)干擾,最終造成幻覺(jué)效應(yīng)。

劉冰雁(Kargo軟件負(fù)責(zé)人):

我是非常堅(jiān)定的純視覺(jué)派,這個(gè)世界的道路都是給人和視覺(jué)設(shè)計(jì)的,也就是說(shuō)除了視覺(jué)之外,你采集的信息你可以認(rèn)為都是干擾,當(dāng)然你可以采集,但是那些信息提供的干擾,和它提供的真正價(jià)值,到底是什么樣的分布?我覺(jué)得在視覺(jué)越做越好的情況下,可能是完全相反的。

如果能做好多傳感器融合算法,讓激光雷達(dá)與圖像信息互相驗(yàn)證,或許會(huì)讓系統(tǒng)的安全性進(jìn)一步提升。

侯曉迪提出了一個(gè)形象的比喻:兩個(gè)同等水平的學(xué)霸在考試時(shí),最終一定是使用計(jì)算器的學(xué)霸更輕松,只是經(jīng)濟(jì)基礎(chǔ)決定了買(mǎi)不買(mǎi)得起計(jì)算器而已。

選擇純視覺(jué)還是以激光雷達(dá)為主的多模態(tài)融合方案,這個(gè)辯論已經(jīng)持續(xù)了數(shù)年,并且似乎短期內(nèi)不會(huì)有答案?;蛘?span style="font-weight: 700;">對(duì)一些創(chuàng)業(yè)公司來(lái)說(shuō),什么路線根本也沒(méi)那么重要,而成本和經(jīng)濟(jì)賬才是最重要的。

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

我曾經(jīng)被認(rèn)為是視覺(jué)派的,是因?yàn)楫?dāng)時(shí)買(mǎi)不到激光雷達(dá),所以逼著我們不得不去在視覺(jué)上多去找解決方案。

我也不反對(duì)激光雷達(dá),激光雷達(dá)什么時(shí)候便宜了,我第一個(gè)去排隊(duì)。現(xiàn)在激光雷達(dá)確實(shí)便宜了,所以我也在排隊(duì)買(mǎi)激光雷達(dá),對(duì)我來(lái)講就是,抓住耗子的都是好貓。只要這個(gè)設(shè)備的成本足夠低,只要這個(gè)設(shè)備能從信息論意義上,給我們提供足夠有價(jià)值的信息,我們就該去用它。

大衛(wèi)(《大小馬聊科技》主播):

中國(guó)的自動(dòng)駕駛?cè)芸斓鼐桶堰@些硬件,比如說(shuō)激光雷達(dá)、毫米波雷達(dá),做成了白菜價(jià)。在這種狀態(tài)下是不是還要像特斯拉那樣做純視覺(jué)?其實(shí)很多公司現(xiàn)在就在猶豫了,那我是1000多塊錢(qián)買(mǎi)一個(gè)固態(tài)激光雷達(dá),還是我用純視覺(jué),但是對(duì)算力上會(huì)造成很大的浪費(fèi)。

于振華(前特斯拉AI工程師):

我覺(jué)得?1000塊錢(qián)太貴了,特斯拉連雨量傳感器都不舍得用。

王辰晟(前特斯拉采購(gòu)總監(jiān)):

但是我覺(jué)得隨著供應(yīng)鏈的規(guī)模的上升,成本的大幅下降,在激光雷達(dá)能做到和攝像頭相似的價(jià)格的時(shí)候,特別是在端到端的這樣一個(gè)應(yīng)用場(chǎng)景下,是不是純視覺(jué)還是一個(gè)唯一的路徑?

3. 幡然悔悟?

有意思的是,隨著激光雷達(dá)價(jià)格大幅下降,業(yè)內(nèi)開(kāi)始對(duì)特斯拉即將發(fā)布的無(wú)人駕駛出租車,是否會(huì)用上激光雷達(dá)產(chǎn)生了分歧。

比如張航就認(rèn)為,由于Robotaxi沒(méi)有人類干預(yù),而且出了事需要企業(yè)負(fù)責(zé),特斯拉可能會(huì)選擇更保守的路線,會(huì)用上曾經(jīng)瞧不起的激光雷達(dá)。

張航(Cruise 高級(jí)主任科學(xué)家):

特別是它需要去為企業(yè)事故負(fù)責(zé)的時(shí)候,它需要更加保守,我覺(jué)得可能需要一個(gè)額外的傳感器。從這個(gè)角度看的話,Tesla可能會(huì)采取一些它之前鄙視的技術(shù),只要這個(gè)東西有用,能達(dá)到它L4的目的,它會(huì)逐漸去采用的。

最近我們也發(fā)現(xiàn)特斯拉在做這個(gè)L4、L5的一些方面也在考慮,他也在跟這個(gè)激光雷達(dá)的一些廠商也在聊一些合作,所以說(shuō)可能就是大家殊途同歸。

今年激光雷達(dá)制造商Luminar發(fā)布了第一季度的財(cái)報(bào),顯示特斯拉的訂單達(dá)到了10%,成為了其最大客戶。而于振華卻不以為然,認(rèn)為這并不是什么新鮮事。

于振華(前特斯拉AI工程師):

首先它肯定不是為了以后量產(chǎn)車上使用激光雷達(dá),因?yàn)長(zhǎng)uminar第一季度總收入好像是2000萬(wàn)美元,10%就是200萬(wàn),也不夠裝幾個(gè)激光雷達(dá)。其實(shí)特斯拉的工程車、測(cè)試車上裝激光雷達(dá),也不是什么秘密了,那個(gè)激光雷達(dá)就是用來(lái)采集訓(xùn)練神經(jīng)網(wǎng)絡(luò)的ground truth(真值數(shù)據(jù)),因?yàn)槿斯o(wú)法標(biāo)注那個(gè)物體距離你有幾米,必須要用專門(mén)的傳感器來(lái)標(biāo)注。

但是Lumina為什么在第一季度披露這件事,我其實(shí)也非常疑惑,因?yàn)轳R斯克也當(dāng)時(shí)就回應(yīng)了,說(shuō)我們?cè)赩12了之后,我們不需要真值數(shù)據(jù)了,因?yàn)槎说蕉肆?,占用網(wǎng)絡(luò)是V11時(shí)代的事情,我可能是覺(jué)得這里面有一些誤解,就是從財(cái)報(bào)上或者財(cái)務(wù)規(guī)則上。

雖然目前不確定特斯拉即將推出的Robotaxi是否會(huì)搭載激光雷達(dá),但有一點(diǎn)可以確定的是,以目前特斯拉的感知配置,安全性還不足以達(dá)到L4或者能運(yùn)營(yíng)Robotaxi的程度。

劉冰雁(Kargo軟件負(fù)責(zé)人):

我非常確定現(xiàn)有的特斯拉的這幾個(gè)車型,都有非常明確的盲區(qū),就是視覺(jué)不可達(dá)的盲區(qū),而這個(gè)盲區(qū)就造成,如果他想實(shí)現(xiàn)最終的,不管是L4、L5的自動(dòng)駕駛,他的下一款車一定需要解決這個(gè)盲區(qū)問(wèn)題。

特斯拉最新的端到端技術(shù)更新,以及10月將公布的Robotaxi細(xì)節(jié)猜測(cè),我們會(huì)在第三和第四章節(jié)再詳細(xì)拆解。接下來(lái)我們先探討感知上的另外一個(gè)重要的技術(shù):高精地圖。

4. 歷久彌新?

除了激光雷達(dá)外,高精地圖也是自動(dòng)駕駛感知端中的成本大頭。

高精地圖就是提前采集道路信息,降低感知模塊繪制3D地圖的壓力,并提高準(zhǔn)確性。

說(shuō)來(lái)也巧,最早推行高精地圖的人,正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個(gè)頭頂了5臺(tái)激光雷達(dá)的車主,Sebastian Thrun。

在2004年DARPA挑戰(zhàn)賽時(shí),谷歌正在籌備“街景”項(xiàng)目,谷歌創(chuàng)始人Larry Page親自到了比賽現(xiàn)場(chǎng)去物色人才,在2005年比賽結(jié)束后,Page找上了Sebastian Thrun,邀請(qǐng)他加入谷歌,并將繪制地圖的工作交給了他。

在這個(gè)過(guò)程中,Thrun和Page突然意識(shí)到,如果有一種能精確記錄所有車道線、路標(biāo)、信號(hào)燈等道路信息的地圖,那將對(duì)無(wú)人駕駛帶來(lái)巨大的幫助,這也奠定了高精地圖在無(wú)人駕駛項(xiàng)目中的重要地位。

但是,制作高精地圖非常昂貴,自動(dòng)駕駛公司采集高精地圖的平均成本大約為每公里5000美元,如果要覆蓋全美660萬(wàn)公里的道路,光是采集成本都達(dá)到了33億美元。

再加上地圖頻繁的維護(hù)成本,最終消耗將是無(wú)法想象的天文數(shù)字。

現(xiàn)在已經(jīng)有不少車企,紛紛宣傳舍棄高精地圖的無(wú)圖方案,轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。

我們匿名采訪的一位自動(dòng)駕駛工程師對(duì)此表示,這些對(duì)比宣傳更多的是出于商業(yè)模式的考量,對(duì)于做Robotaxi生意的企業(yè),用上高精地圖能增加安全性,而對(duì)于車企來(lái)說(shuō),舍棄高精地圖能有效降低成本,所以并不意味著舍棄高精地圖技術(shù)水平就會(huì)更高。

匿名受訪者(L4工程師):

華為還有理想,他們的解決方案是量產(chǎn)車,客戶可能是來(lái)自各種城市,你要在任何城市都能開(kāi)。

那現(xiàn)在主流的這個(gè)高精地圖,它的這個(gè)主要的門(mén)檻在于,它需要有一個(gè)地圖采集的過(guò)程,這個(gè)地圖采集的過(guò)程實(shí)際上是相對(duì)來(lái)說(shuō)比較花時(shí)間、人力成本的,然后他也需要專業(yè)的這個(gè)地圖采集設(shè)備。

所以如果是做這個(gè)量產(chǎn)車的生意的話,你不可能說(shuō)我專門(mén)有一個(gè)地圖采集車,我把全中國(guó)都給你跑遍了,這個(gè)是不現(xiàn)實(shí)的。

像特斯拉、華為、理想等L2的公司拋棄高精地圖,是因?yàn)闊o(wú)法覆蓋每一條大街小巷。

而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖,因?yàn)樗麄儼l(fā)現(xiàn),只需要覆蓋一些關(guān)鍵的城市,就能拿下足夠的市場(chǎng)了。

所以,是否使用高精地圖成為了Robotaxi公司的經(jīng)濟(jì)賬問(wèn)題,而不是技術(shù)問(wèn)題。

Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):

如果你單看Robotaxi的商業(yè)模式,把美國(guó)Robotaxi的需求來(lái)劃分,你會(huì)發(fā)現(xiàn)前五大的城市,它已經(jīng)占有了全美一半的商業(yè)體量,你不需要讓它在全美任何一個(gè)地方都能跑,其實(shí)你就已經(jīng)有一個(gè)相當(dāng)大的一個(gè)市場(chǎng)了。

類似地,我們采訪的另一位做L4自動(dòng)駕駛卡車的嘉賓也分享到,他們?nèi)绻獢U(kuò)大運(yùn)營(yíng)線路,也就是擴(kuò)充高精地圖的覆蓋范圍,得先衡量這條線路是否賺錢(qián),否則只是賠本賺吆喝。

這么一圈聊下來(lái),在感知端上,業(yè)內(nèi)也沒(méi)有統(tǒng)一的看法,就像侯曉迪說(shuō)的一樣,抓到耗子就是好貓。

接下來(lái),我們重點(diǎn)聊聊大家最近非常關(guān)注的自動(dòng)駕駛算法層面的最近進(jìn)展,特別是特斯拉近來(lái)大肆宣揚(yáng)的“端到端”,到底是什么技術(shù)呢?它真會(huì)改變自動(dòng)駕駛的行業(yè)方向嗎?

三、算法篇:端到端是自動(dòng)駕駛的未來(lái)嗎?

1. 何為傳統(tǒng)?

傳統(tǒng)的自動(dòng)駕駛的運(yùn)行鏈路是先感知、預(yù)測(cè),再規(guī)劃,最后控制。

感知模塊要先通過(guò)攝像頭、雷達(dá)等傳感器,識(shí)別道路,把這些信息翻譯成機(jī)器能看到的語(yǔ)言,傳遞給預(yù)測(cè)模塊。

預(yù)測(cè)模型就會(huì)判斷其他車輛、行人的行駛軌跡,再把這些信息傳遞給規(guī)劃模塊,去找出風(fēng)險(xiǎn)最低的一條路,最后再將控制信號(hào)傳遞給操控系統(tǒng)。

這時(shí)的算法主要靠“規(guī)則庫(kù)”(Rule base)來(lái)驅(qū)動(dòng),工程師需要不斷寫(xiě)入各種規(guī)則,比如遇到行人得減速、遇到紅燈要停車等,為了考慮到各種情況,規(guī)則庫(kù)就得盡可能覆蓋到各種可能,相應(yīng)地,代碼也非常非常長(zhǎng)了。

這樣的算法有哪些難點(diǎn)呢?

最大的問(wèn)題就在于,系統(tǒng)被劃分成了不同的模塊,但模塊之間的信息傳輸會(huì)有所損失,如果下游無(wú)法拿到全面的信息,預(yù)測(cè)和規(guī)劃的難度就會(huì)增加。

舉個(gè)淺顯易懂的例子,大家都聽(tīng)過(guò)多人傳話游戲吧?10個(gè)人,從頭到尾傳遞一句話,但經(jīng)常這段話經(jīng)過(guò)多人傳遞的過(guò)程,細(xì)節(jié)就會(huì)被丟失或篡改,以至于到達(dá)最后一個(gè)人那里的時(shí)候意思就大相徑庭了。

類似地,在傳統(tǒng)的Rule-based模式下,如果上一層模塊做得不夠好,會(huì)影響到下一層的表現(xiàn)。

另一個(gè)缺點(diǎn)是,規(guī)則都是由人工設(shè)計(jì)定義的,但有限的規(guī)則無(wú)法覆蓋無(wú)限可能的現(xiàn)實(shí)情況,一些不常見(jiàn)且容易被忽略的問(wèn)題,機(jī)器難以拿出對(duì)應(yīng)的解決方法,這被稱為“長(zhǎng)尾問(wèn)題”(long tail case),也叫“極端情況”(corner case),這就會(huì)導(dǎo)致規(guī)模化落地的成本非常高。

于振華(前特斯拉AI工程師):

還有一個(gè)就是,在分兩個(gè)模塊的時(shí)候,我認(rèn)為這個(gè)技術(shù)是很難規(guī)?;模瑸槭裁茨??你每次要在一個(gè)現(xiàn)實(shí)的復(fù)雜場(chǎng)景中新加一個(gè)任務(wù),那么你就要新加一些接口,你就要去改變感知、改變控制規(guī)劃。

比如說(shuō)特斯拉,前幾年NHTSA(美國(guó)交通安全管理局)要求特斯拉能夠檢測(cè)到緊急車輛,比如說(shuō)消防車、救護(hù)車之類的,在感知上你就要求要檢測(cè)這個(gè),然后控制規(guī)劃也要做這個(gè),這只是一個(gè)任務(wù),可能會(huì)成百上千這樣的任務(wù),你要去規(guī)?;?,所以說(shuō)在華為你們知道有幾千個(gè)工程師?大概是6000個(gè)工程師,因?yàn)槟銜?huì)有這么多不斷涌現(xiàn)的新的任務(wù)出現(xiàn),環(huán)境越復(fù)雜任務(wù)越多,我認(rèn)為這不是一個(gè)可規(guī)?;哪J健?/p>

大衛(wèi)(《大小馬聊科技》主播):

那這種方法還是比較老套,雖然說(shuō)看起來(lái),如果做Robotaxi行業(yè)是比較靈的一個(gè)方法論,但是它不能滿足乘用車、幾百上千萬(wàn)臺(tái)車將來(lái)在全世界的路面上行駛。

那有什么辦法能解決這些問(wèn)題呢?這時(shí)候就得聊聊“端到端”(End To End)了。

2. 新超級(jí)明星

在自動(dòng)駕駛領(lǐng)域內(nèi),目前主流的“端到端”定義是:傳感器收集到的信息,不加任何處理傳遞給基于神經(jīng)網(wǎng)絡(luò)的大模型,并直接輸出控制結(jié)果。

也就是說(shuō),不再需要人為編寫(xiě)各種規(guī)則,讓算法跟著投喂的數(shù)據(jù),自己學(xué)會(huì)如何開(kāi)車。

于振華(前特斯拉AI工程師):

因?yàn)槲覀內(nèi)祟愰_(kāi)車,我們腦子里并不是去判斷某輛車的速度和角度的,你就是通過(guò)一個(gè)復(fù)雜環(huán)境來(lái)下意識(shí)地來(lái)做出你的決策。

“讓算法更像人,因?yàn)槿司褪沁@樣運(yùn)轉(zhuǎn)的”這樣的思考邏輯,正是馬斯克帶領(lǐng)特斯拉的前進(jìn)方針,也不奇怪,為什么“端到端”技術(shù)在自動(dòng)駕駛里并不新,卻是被特斯拉第一個(gè)做出來(lái)的。

雖然2023年底,特斯拉才第一次將用上了“端到端”的FSD V12推出,但在自動(dòng)駕駛界,“端到端”并不是什么新鮮事。其實(shí)早在2016年,英偉達(dá)就有論文提出了“端到端”。

而現(xiàn)在,“端到端”也分為兩種,一種是把部分模塊替換成神經(jīng)網(wǎng)絡(luò),這種分模塊的“端到端”,只是一種過(guò)度形式,并不是完全體,因?yàn)楦鱾€(gè)模塊之間要傳遞信息,依然要定義各種接口,造成數(shù)據(jù)損失。

在主流觀點(diǎn)中,只有將多個(gè)模塊融為了一個(gè)整體,去掉了感知層、預(yù)測(cè)層、規(guī)劃層這樣的定義,才算純正的“端到端”。

2023年,CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出,過(guò)去的“端到端”要么只運(yùn)行在部分模塊上,要么需要在系統(tǒng)中插入一些組件。

而這篇論文提出了UniAD的模型架構(gòu),是首次將所有的感知、預(yù)測(cè)、規(guī)劃模塊,都整合到了一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下。

相比傳統(tǒng)Rule-based(規(guī)則驅(qū)動(dòng))的執(zhí)行鏈路,“端到端”不再需要算法工程師去反復(fù)完善規(guī)則庫(kù),所以才有了馬斯克發(fā)布FSD V12時(shí),宣稱“其代碼從30萬(wàn)行縮減到了2000行”。

雖然自動(dòng)駕駛中的“端到端”技術(shù)不是特斯拉發(fā)明的,但特斯拉確實(shí)是第一家公司把神經(jīng)網(wǎng)絡(luò)“端到端”技術(shù)做出來(lái)并推向主流市場(chǎng)的。

3. “端到端”優(yōu)勢(shì)

2023年11月,特斯拉發(fā)布了FSD V12第一個(gè)測(cè)試版本,但僅向選定的員工開(kāi)放。到了2024年初,特斯拉開(kāi)始將FSD V12版本開(kāi)放給美國(guó)所有特斯拉車主,每位車主都有1個(gè)月的免費(fèi)試用權(quán)限。

FSD V12推出后,一時(shí)間掀起了軒然大波,從用戶體驗(yàn)上,我們看到大部分的輿論都認(rèn)為比之前的特斯拉FSD功能進(jìn)步非常大,甚至很多人都認(rèn)為,這是自動(dòng)駕駛界的“ChatGPT Moment”。

大衛(wèi)(《大小馬聊科技》主播):

真正讓我覺(jué)得進(jìn)步的就是規(guī)劃,比如說(shuō)過(guò)環(huán)島,因?yàn)檫@個(gè)過(guò)環(huán)島其實(shí)是在傳統(tǒng)的 planning方向上面是挺難做的,因?yàn)槟闱懊娴能囈尤?,你還要出環(huán)島,這中間如何設(shè)置這種優(yōu)先級(jí)?

你即使設(shè)置優(yōu)先級(jí),那你跟前車和旁邊的車保持多少的距離才能出去,這是一個(gè)其實(shí)挺復(fù)雜的邏輯,但是這個(gè)在新版的FSD上表現(xiàn)確實(shí)讓我覺(jué)得很驚艷,這是給我一個(gè)很大的驚喜。

不少體驗(yàn)過(guò)FSD V12的人表示,這個(gè)通過(guò)人類駕駛數(shù)據(jù)來(lái)學(xué)習(xí)的系統(tǒng),駕駛風(fēng)格非常像人,不再有機(jī)械式算法帶來(lái)的頓挫感。

但與此同時(shí),也有嘉賓在體驗(yàn)后認(rèn)為,FSD V12還沒(méi)有好到讓人非用不可,與L4之間還存在一定差距。

莫傑麟(Justin)(某家族辦公室首席投資官):

但是它沒(méi)有好到GPT4的那個(gè)時(shí)刻,就沒(méi)有好到說(shuō)這個(gè)東西讓我必須得用,或者說(shuō)我立馬就要用,能夠適合在我的很多的場(chǎng)景里面去用。

Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):

高速路相對(duì)它的表現(xiàn)還是比較好的,但在街道上,我覺(jué)得基本上每開(kāi)5英里左右就需要人工接管一次。

尤其是在那種我們叫unprotected left turn(無(wú)保護(hù)左轉(zhuǎn)),它還是比較容易做一些,讓我覺(jué)得不是很安全的行為,如果你MPI(接管里程數(shù))只有5的話,那么顯然離L4的自動(dòng)駕駛還有一定的距離。

我自己也體驗(yàn)了一下FSD 12.4.4的版本,和Waymo這類L4的車輛比起來(lái),目前的特斯拉FSD依然在某些時(shí)候會(huì)嚇我一跳,或者有時(shí)候表現(xiàn)出莫名其妙的行為。

比如在一個(gè)右轉(zhuǎn)彎時(shí),由于它的轉(zhuǎn)彎半徑太大,差點(diǎn)撞到對(duì)向來(lái)車,我不得不手動(dòng)接管。

從表現(xiàn)上來(lái)看,“端到端”的FSD V12依然還有進(jìn)步的空間,而從工程、運(yùn)營(yíng)和管理角度來(lái)看,“端到端”的優(yōu)勢(shì)有三點(diǎn):

第一,能讓系統(tǒng)整體更簡(jiǎn)潔。去掉規(guī)則庫(kù)后,只需要不斷補(bǔ)充訓(xùn)練案例,即可進(jìn)一步提升模型表現(xiàn),維護(hù)和升級(jí)成本也將大幅降低。

第二,節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫(kù),因此不必配備龐大的開(kāi)發(fā)團(tuán)隊(duì),甚至不再依賴專家。

第三,能實(shí)現(xiàn)更大范圍的推廣。大家可以看到目前L4的公司只能在限定地區(qū)運(yùn)行,拋開(kāi)法規(guī)牌照的限制,是因?yàn)榉恰岸说蕉恕狈桨?,需要針?duì)具體地區(qū)做優(yōu)化,而“端到端”各路況都能應(yīng)對(duì),更像一個(gè)“通用”的司機(jī),這也是為什么特斯拉FSD V12被比作ChatGPT的原因之一。

既然“端到端”有如此多的優(yōu)勢(shì),它能解決目前自動(dòng)駕駛面臨的技術(shù)問(wèn)題嗎?

4. 黑盒模型

我們采訪的不少嘉賓認(rèn)為,在現(xiàn)階段,進(jìn)一步發(fā)展端到端的路線是自動(dòng)駕駛領(lǐng)域內(nèi)公認(rèn)的趨勢(shì),但依然存在不少問(wèn)題。

張航(Cruise 高級(jí)主任科學(xué)家):

這個(gè)方向我覺(jué)得是一個(gè)正確的方向,我們不可能通過(guò)一直在以打補(bǔ)丁的方式,來(lái)做出一個(gè)規(guī)?;腖4方案,只不過(guò)是目前我覺(jué)得要快速地達(dá)到一個(gè)L4的方案,也不可能完全通過(guò)端到端的方案,所以現(xiàn)在是一個(gè)矛盾的一個(gè)時(shí)間點(diǎn)。

為什么目前的端到端距離L4還有一定差距,這就要從它的不確定性說(shuō)起了。

端到端就像一個(gè)黑盒子,會(huì)帶來(lái)較多的不確定性。

比如工程師無(wú)法驗(yàn)證,輸入的數(shù)據(jù)案例是否已經(jīng)被模型學(xué)會(huì);或者遇到bug時(shí),無(wú)法定位到底是哪個(gè)環(huán)節(jié)出了問(wèn)題;又或者新加入的數(shù)據(jù),是否會(huì)導(dǎo)致已學(xué)到的知識(shí)被遺忘或覆蓋,這種情況被稱為Catastrophic Forgetting(災(zāi)難性遺忘)。

比如特斯拉FSD 12.4.2的版本,內(nèi)部早就做出來(lái)了,結(jié)果大規(guī)模推送卻花了很長(zhǎng)時(shí)間,馬斯克就解釋道,因?yàn)橥段沟臄?shù)據(jù)中有很多人工接管的視頻,反而讓模型的水平出現(xiàn)了倒退。

由于端到端的本質(zhì)是模仿,如果遇到的情況恰好在訓(xùn)練數(shù)據(jù)中有相似的案例,那就會(huì)表現(xiàn)得非常好,但如果超出了已有的參考案例,則會(huì)表現(xiàn)更差,也就是說(shuō),端到端對(duì)訓(xùn)練數(shù)據(jù)的數(shù)量和案例豐富性要求非常高。

張航(Cruise高級(jí)主任科學(xué)家):

就是在交通路口紅燈的時(shí)候,一定不闖紅燈,就這么一個(gè)簡(jiǎn)單的規(guī)則,如果是heuristic-based(啟發(fā)式的算法),我們可以很簡(jiǎn)單的就是一條 if else,就可以達(dá)到這樣一個(gè)效果。

但是如果是一個(gè)完全端到端的模型,它是完全靠學(xué)習(xí)的,最后他要學(xué)的這樣一條路的話其實(shí)是非常難的。所以我覺(jué)得短時(shí)間內(nèi)端到端對(duì)L4,還是有很大的差距,我覺(jué)得這個(gè)算法是不成熟。

劉冰雁(Kargo軟件負(fù)責(zé)人):

你沒(méi)有一些硬性規(guī)則,就是所有的、你設(shè)置的這種不能做的事情,他都可以嘗試去做一下。于是會(huì)在模擬里邊出現(xiàn)很多一頭撞過(guò)去的現(xiàn)象。

同時(shí),端到端帶來(lái)的不可解釋性,也是一些人擔(dān)心的問(wèn)題。

所謂的不可解釋性,就是改變其算法模型中的任意一個(gè)權(quán)重、節(jié)點(diǎn)或?qū)訑?shù),都會(huì)讓模型的表現(xiàn)產(chǎn)生難以預(yù)測(cè)的影響,即使是模型的設(shè)計(jì)者和訓(xùn)練者,也無(wú)法知道中間的推理過(guò)程。

與之相對(duì)的是可解釋性,比如在Rule-based的模式下,工程師已經(jīng)寫(xiě)入了“當(dāng)檢測(cè)到塑料袋飄過(guò)時(shí)可以繼續(xù)行駛”的規(guī)則,那我們就不用擔(dān)心遇到這種情況會(huì)突然來(lái)個(gè)急剎車。

劉冰雁(Kargo軟件負(fù)責(zé)人):

大家看到V12里,他在屏幕上的顯示也好了很多,但他所謂的端到端,這個(gè)顯示從哪兒來(lái)的?如果這個(gè)顯示來(lái)自原來(lái)的這個(gè)模型,那牽扯的一個(gè)問(wèn)題就是,我們實(shí)際上在這個(gè)模型里邊已經(jīng)加了一層,人為定義的接口,使得你可以從這個(gè)模型中的某一個(gè)位置,提取出這個(gè)信息。

另一種我覺(jué)得是更恐怖的事情,就是這個(gè)顯示是完全走了另外的一個(gè)路徑,那也意味著車上顯示前面有一輛卡車,不代表控制的模型真的認(rèn)為前面有一輛卡車,如果這一點(diǎn)被破壞了,那將是非常非??植赖?,你看到顯示它前面有一輛車,但你不確定它不會(huì)撞上去。

他是否是真正的端到端,我實(shí)際有點(diǎn)懷疑,或者說(shuō)我也許不是懷疑,但是這里邊可能有別的危險(xiǎn)性。

王辰晟(前特斯拉采購(gòu)總監(jiān)):

那對(duì)于像自動(dòng)駕駛這個(gè),對(duì)于安全系數(shù)要求這么高的行業(yè)來(lái)說(shuō),端到端模型帶來(lái)的這個(gè)不可解釋性,是不是硬幣的另外一面?

由于目前特斯拉還未公布FSD V12的技術(shù),我們并不知道FSD是否采用了多模塊的策略,但我們發(fā)現(xiàn),已經(jīng)有車主遇到了畫(huà)面顯示與實(shí)際行為不符的案例。

比如車輛構(gòu)建的鳥(niǎo)瞰圖顯示前方有人,卻沒(méi)有表現(xiàn)出任何剎車的痕跡,而是繼續(xù)行駛過(guò)去,所幸只是感知端的誤檢,沒(méi)有發(fā)生事故。

這個(gè)案例雖然可以看出,在端到端算法下,上層錯(cuò)誤不會(huì)影響下層決策的優(yōu)勢(shì),但也表現(xiàn)了規(guī)劃層偶爾會(huì)不認(rèn)可感知層的結(jié)果,印證了劉冰雁的擔(dān)憂。

不可解釋性是否會(huì)成為阻礙端到端發(fā)展的一大難題呢?接下來(lái)就是我們看到的第三個(gè)沖突。

于振華(前特斯拉AI工程師):

我認(rèn)為是這樣的,AI一個(gè)很嚴(yán)重的問(wèn)題,就是它的理論性是遠(yuǎn)遠(yuǎn)滯后的。

AI沒(méi)有告訴你這個(gè)一定行、一定不行。所以說(shuō)它是一個(gè)實(shí)驗(yàn)性的學(xué)科,它不算科學(xué),就需要一個(gè)大量的驗(yàn)證。

V12是全面碾壓V11,所以這是結(jié)果說(shuō)話的一個(gè)問(wèn)題。那難道你會(huì)想,端到端有這個(gè)不可解釋性那一頓什么什么,因?yàn)樗婺雺?,那就是一個(gè)非常無(wú)腦的,你就應(yīng)該往下走。

于振華認(rèn)為,AI作為實(shí)驗(yàn)性的學(xué)科,只要結(jié)果達(dá)到了預(yù)期,就能證明方向正確,應(yīng)該繼續(xù)推進(jìn)。而侯曉迪表示,V12表現(xiàn)大幅領(lǐng)先于V11,只是因?yàn)閂11的基礎(chǔ)太差,其表現(xiàn)距離真正的無(wú)人駕駛還比較遠(yuǎn)。

王辰晟(前特斯拉采購(gòu)總監(jiān)):

如果真的是Full Self Driving,以L5來(lái)去限制的話,它一定要過(guò)監(jiān)管部門(mén),他們需要有一個(gè)可解釋性或者可預(yù)測(cè)性。

再加上,世界上有這么多的城市,就在美國(guó)來(lái)說(shuō),每個(gè)城市可能都會(huì)有不一樣的法律法規(guī)。這個(gè)車無(wú)論從硬件軟件上,需不需要去適應(yīng)當(dāng)?shù)氐姆煞ㄒ?guī),變成了這個(gè)能不能規(guī)?;囊粋€(gè)很大的問(wèn)題。

端到端不能通過(guò)人為定義規(guī)則,來(lái)對(duì)模型進(jìn)行微調(diào),所以能否適應(yīng)不同法規(guī),成了端到端規(guī)?;奶魬?zhàn)。

同樣影響規(guī)?;囊蛩兀谟诙说蕉藢?duì)數(shù)據(jù)量和傳感器更敏感。

5. 前途未卜

劉冰雁(Kargo軟件負(fù)責(zé)人):

端到端有一個(gè)非常嚴(yán)酷的問(wèn)題,就是它對(duì)傳感器會(huì)更敏感,也就是說(shuō)當(dāng)你換了傳感器或者換了傳感器的分布的時(shí)候,你這個(gè)模型可以說(shuō)得完全重頭訓(xùn)。

從另一個(gè)角度來(lái)說(shuō),工程上不可接受,或者說(shuō)我們無(wú)法想象之后全世界路上跑的都是同一款車。

一旦更改了傳感器分布,會(huì)讓模型失效,得重新開(kāi)始訓(xùn)練,為了訓(xùn)練又得采集大量數(shù)據(jù),必然會(huì)帶來(lái)巨大的成本。

美國(guó)財(cái)經(jīng)媒體CNBC報(bào)道稱,到2023年初,為了訓(xùn)練FSD,特斯拉就用到了1000多萬(wàn)段特斯拉車主的駕駛視頻。

而且這1000多萬(wàn)段訓(xùn)練數(shù)據(jù)可不是隨便用的,必須是駕駛水平比較高的人類司機(jī),否則只會(huì)讓模型的水平越來(lái)越差。

所以訓(xùn)練端到端模型不光要求數(shù)據(jù)多,還得經(jīng)過(guò)復(fù)雜的篩選,這個(gè)過(guò)程中又得消耗大量人力。對(duì)于賣車多的特斯拉可能不在話下,但對(duì)于其他公司來(lái)說(shuō),數(shù)據(jù)來(lái)源卻成了大問(wèn)題。

大衛(wèi)(《大小馬聊科技》主播):

很多主機(jī)廠因?yàn)槊つ孔非筇厮估翘追椒ㄕ?,然后?dǎo)致有點(diǎn)被忽悠瘸了,就是這套東西確實(shí)不適合90%的主機(jī)廠。

那是否意味著,其他廠商真的無(wú)法進(jìn)入端到端的領(lǐng)域呢?

雖然英偉達(dá)和特斯拉都是通過(guò)純視覺(jué)來(lái)驅(qū)動(dòng)端到端算法運(yùn)行,但端到端實(shí)際上也可以接受多模態(tài)輸入。

目前常用的毫米波雷達(dá)、激光雷達(dá)、超聲波雷達(dá)等傳感器,在車輛上的位置相對(duì)固定,特別是激光雷達(dá),基本都在車頂上,所以采用多模態(tài)接入的端到端,就能利用不同車型采集的數(shù)據(jù),來(lái)訓(xùn)練模型,而且留給主機(jī)廠的設(shè)計(jì)空間也會(huì)更大。

又這么一圈聊下來(lái),每種算法都各有千秋,哪種方式能帶我們徹底走向全無(wú)人駕駛的未來(lái)依然不明朗。

張航(Cruise高級(jí)主任科學(xué)家):

我不覺(jué)得在當(dāng)下有任何一個(gè)算法能,又簡(jiǎn)單又規(guī)?;?,然后又能達(dá)到L4標(biāo)準(zhǔn),我覺(jué)得這個(gè)算法本身是不存在的,這個(gè)領(lǐng)域是一個(gè)大家一起去推動(dòng)的。我是非常樂(lè)觀,大家會(huì)殊途同歸,雖然大家會(huì)稍稍有一點(diǎn)點(diǎn)不同的偏差。

6. 無(wú)計(jì)可施

不論是哪種算法,最終都要面對(duì)長(zhǎng)尾問(wèn)題。

在傳統(tǒng)Rule-based(規(guī)則驅(qū)動(dòng))模型下,編寫(xiě)規(guī)則庫(kù)(rule base)需要龐大的團(tuán)隊(duì)耗費(fèi)大量精力,還很難做到面面俱到,那有了端到端后,長(zhǎng)尾問(wèn)題能得到解決嗎?

Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):

他解決了常規(guī)的案例,但是長(zhǎng)尾的問(wèn)題我覺(jué)得依舊會(huì)存在。

Minfa認(rèn)為,自動(dòng)駕駛系統(tǒng)的容錯(cuò)率很低,如果要將一個(gè)黑盒系統(tǒng)用在L4上,必須引入其他安全機(jī)制,但這樣又回到了Rule-based模式下的成本問(wèn)題。

自動(dòng)駕駛算法會(huì)先到仿真系統(tǒng)里練習(xí),那仿真訓(xùn)練可以解決一定的長(zhǎng)尾問(wèn)題嗎?

張航(Cruise高級(jí)主任科學(xué)家):

目前還沒(méi)有一個(gè)很好的方案能通過(guò)生成的模擬數(shù)據(jù),對(duì)我們的現(xiàn)實(shí)中的道路表現(xiàn)有真正有很大的幫助。

Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):

像自動(dòng)駕駛或者機(jī)器人的領(lǐng)域里邊,環(huán)境是非常非常復(fù)雜的,你要仿真的話,仿真的不只是你自己,這個(gè)車會(huì)未來(lái)怎么動(dòng),主要困難的是,當(dāng)你自己的車的軌跡發(fā)生變化的時(shí)候,你會(huì)影響周圍的所有的車和人的行為也發(fā)生變化。

如何能夠很好地仿真,然后并且能夠不出現(xiàn) distribution shift(分布偏移),我覺(jué)得依舊是一個(gè)開(kāi)放性話題。

既然虛擬的場(chǎng)景無(wú)法完全模擬出現(xiàn)實(shí)的種種可能,那是否意味著,目前業(yè)內(nèi)沒(méi)有辦法解決長(zhǎng)尾問(wèn)題,只能靠漫長(zhǎng)地積累經(jīng)驗(yàn)?zāi)兀?/p>

匿名受訪者(L4工程師):

某種程度上是吧,但你也不用做到,就是特別完美,對(duì)吧?人類也不完美,你只要做得比人好就行。人也有他的事故率,你只要做得比這個(gè)好就夠了。

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

我覺(jué)得長(zhǎng)尾問(wèn)題其實(shí)也是一個(gè)偽命題,就這個(gè)很高興你們提出來(lái)這個(gè)事情。

在我看來(lái)長(zhǎng)尾問(wèn)題,比如說(shuō)我見(jiàn)到鱷魚(yú)怎么處理?我見(jiàn)著大象怎么處理?我見(jiàn)著一個(gè)固定翼飛機(jī)停在高速公路上,我怎么處理?

實(shí)際上對(duì)于很多長(zhǎng)尾問(wèn)題,我們是讓它包裹成一大類問(wèn)題的,見(jiàn)到我沒(méi)見(jiàn)過(guò)的物體,怎么處理?如果你把它包裹成了一個(gè)更總體的一類問(wèn)題的話,它是很好處理的。

比如說(shuō)我們?cè)?jīng)就見(jiàn)到有固定翼飛機(jī)停在高速公路上,那我們的處理方案很簡(jiǎn)單,停車呀對(duì)吧?

長(zhǎng)尾問(wèn)題到底是不是偽命題,或者它是不是需要解決的問(wèn)題?這個(gè)話題可能大家都有自己的答案。而長(zhǎng)尾問(wèn)題對(duì)應(yīng)的是,L4甚至L5何時(shí)才能大范圍鋪開(kāi),所以接下來(lái),我們就來(lái)看看L2與L4的激烈沖突。

四、特斯拉Robotaxi能成嗎:L2與L4的沖突

1. “成不了”

我們?cè)隈R斯克宣布推遲發(fā)布Robotaxi之前就詢問(wèn)了各位嘉賓的看法,大家對(duì)此的看法非常統(tǒng)一,那就是今年特斯拉的無(wú)人出租車是不可能上線的。

大家觀點(diǎn)如此統(tǒng)一的最大原因,就在于目前特斯拉已有的車型,達(dá)不到L4標(biāo)準(zhǔn)的無(wú)人出租車。

劉冰雁(Kargo軟件負(fù)責(zé)人):

我非常確定現(xiàn)有的特斯拉的這幾個(gè)車型,都有非常明確的盲區(qū),如果他想實(shí)現(xiàn)最終的,不管是L4、 L5的自動(dòng)駕駛,他的下一款車,一定需要解決這個(gè)盲區(qū)問(wèn)題。而解決這盲區(qū)問(wèn)題又回到我們現(xiàn)剛才說(shuō)的,它一定要調(diào)整相機(jī)傳感器的位置,而傳調(diào)整這些位置立刻帶來(lái)的結(jié)果就是,就是之前這個(gè)模型會(huì)完全失效。

就是現(xiàn)有的車從視覺(jué)攝像頭架構(gòu)的角度來(lái)說(shuō),是不可能達(dá)到,可以完全無(wú)人接管的FSD的。從這個(gè)角度來(lái)說(shuō),它必須有一款新的硬件出現(xiàn)。

張航(Cruise高級(jí)主任科學(xué)家):

從傳感器角度,它需要引入一些冗余,這個(gè)可能之前L2是不需要的。

在業(yè)內(nèi)人士不看好的情況下,是什么原因讓馬斯克對(duì)推出Robotaxi如此有信心呢?

于振華(前特斯拉AI工程師):

我認(rèn)為主要還是這個(gè)FSD V12的幾個(gè)技術(shù)突破,作為馬斯克他的這個(gè)性格,他看到FSD V12今天這一刻,在他的這個(gè)計(jì)劃里面,他就覺(jué)得Robotaxi應(yīng)該必須擺上日程了。

所以,F(xiàn)SD V12能讓特斯拉走向L4,承擔(dān)起Robotaxi的重任嗎?和目前已有的Waymo或Cruise比起來(lái)差距有多大呢?

在采訪侯曉迪這個(gè)問(wèn)題時(shí),他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點(diǎn):那就是L2和L4的差距非常遠(yuǎn)。

2. “差很遠(yuǎn)”

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

首先特斯拉做的不是無(wú)人駕駛,我們今天談的是去掉人,并且由軟件開(kāi)發(fā)公司承擔(dān)責(zé)任的方案,才叫無(wú)人駕駛,咱們不要虛假宣傳, FSD叫輔助駕駛,它不是無(wú)人駕駛,所以做的不是一個(gè)東西。

目前被廣泛應(yīng)用在車企上的都是L2輔助駕駛,比如特斯拉、小米、華為、小鵬等等,而像Waymo、Cruise、百度等做無(wú)人出租車的企業(yè),則采用的是L4高度自動(dòng)駕駛,拋開(kāi)書(shū)面的概念定義,這兩者之間的本質(zhì)區(qū)別就在于,誰(shuí)來(lái)承擔(dān)責(zé)任。

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

去掉人并且由軟件開(kāi)發(fā)公司承擔(dān)責(zé)任的方案才叫無(wú)人駕駛。講一笑話,如果特斯拉撞死人了怎么辦?對(duì)Elon Musk來(lái)講,its not their business(這不關(guān)他的事)。

所以,如果特斯拉想做無(wú)人出租車,就必須做到自己承擔(dān)責(zé)任。那輔助駕駛和自動(dòng)駕駛之間,從技術(shù)上又有哪些區(qū)別呢?

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

L4無(wú)人駕駛要解決的核心問(wèn)題是什么?是安全性,是冗余,是當(dāng)一個(gè)系統(tǒng)的每一個(gè)模塊都有可能會(huì)失效的時(shí)候,這個(gè)系統(tǒng)還仍然能夠保障最底線的安全。這件事是L4最難和最關(guān)鍵的部分。在掙錢(qián)之前它要先解決安全性的問(wèn)題,但是這件事情根本不是特斯拉的設(shè)計(jì)宗旨。

另外一位L4自動(dòng)駕駛研究員也分別從硬件與軟件的角度,分析了L2和L4之間的區(qū)別。

張航(Cruise高級(jí)主任科學(xué)家):

L4的解決方案,首先是我們有比較強(qiáng)的傳感器,這個(gè)可能很難在L2場(chǎng)景里面去用,起碼不會(huì)用這么高精度的激光雷達(dá)。

從算法角度可能L2公司更注重的是一些,更有效能把成本降得很低,然后不需要特別昂貴的傳感器,然后可能更少的計(jì)算就可以達(dá)到這樣一個(gè)效果。這些L2其實(shí)不需要考慮這種百萬(wàn)分之一的案例。

那我們L4追求的是,一百萬(wàn)英里以上才需要引入一次的人類遠(yuǎn)程協(xié)助,追求的就是這種百萬(wàn)分之一的案例。

總結(jié)一下:L4的方案,采用的傳感器精度更高,芯片的算力會(huì)更充足,能應(yīng)對(duì)的場(chǎng)景也更全面。

但L2的方案中,首要考慮的是成本問(wèn)題,所以硬件水平會(huì)稍低一些,同時(shí)算法為了適應(yīng)水平稍低的硬件,會(huì)更注重效率而非安全,這樣L2的接管頻率會(huì)比L4高很多。

那么,像特斯拉這樣做L2的公司,能否通過(guò)提升硬件與軟件,來(lái)達(dá)到L4的效果呢?

3. “兩碼事”

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

我不支持L2緩慢進(jìn)化到L4、L5的路線,我覺(jué)得這件事情又是一個(gè)帶有很強(qiáng)這種外推屬性的偽命題。

假以時(shí)日,海豚能不能進(jìn)化出文明來(lái)?我覺(jué)得有可能,但是我們要知道地球文明已經(jīng)容不下海豚去進(jìn)化了,因?yàn)橐呀?jīng)有公司做出來(lái)了,我這個(gè)公司就是為了能夠最快速的把L4落地。我落了地以后就沒(méi)你什么事兒了,對(duì)吧?智人拿起標(biāo)槍的時(shí)候就沒(méi)有海豚去產(chǎn)生文明什么事兒了。

在侯曉迪看來(lái),目前已有的L4公司已經(jīng)筑起了技術(shù)壁壘,激烈競(jìng)爭(zhēng)下,不會(huì)給到L2進(jìn)化的機(jī)會(huì),同時(shí),也有人認(rèn)為,這并不意味著L4的技術(shù)比L2更高級(jí),只是大家針對(duì)的場(chǎng)景不同。

于振華(前特斯拉AI工程師):

如果說(shuō),真的L4比L2像大家所想象的,在技術(shù)上是絕對(duì)的高級(jí)、絕對(duì)的領(lǐng)先。那么我想請(qǐng)問(wèn)為什么L4技術(shù)不能夠直接降級(jí)成了L2?

事實(shí)上是在過(guò)去的很多年里面,L4公司由于收入的壓力,都在幫車廠去做L2,但是他不能夠簡(jiǎn)單地降級(jí),他基本上都要重新開(kāi)發(fā)。

那我們也知道在美國(guó),GM(通用汽車)是擁有Cruise L4公司,福特是擁有Argo AI,也是個(gè)L4公司,為什么GM不能使用Cruise的技術(shù)在它的量產(chǎn)車上?為什么福特不能使用Argo AI的L4技術(shù)在它量產(chǎn)車上?所以說(shuō)L4并不是比L2絕對(duì)高級(jí),在技術(shù)難度上,我不認(rèn)為你做L4了,你就顯得非常高級(jí)。

為什么L4的技術(shù)不能直接降級(jí)成L2使用呢?張航對(duì)此解釋道,由于L4所采用的硬件規(guī)格更高,而L2的算法必須適應(yīng)規(guī)格更低的傳感器和算力較少的處理器,才導(dǎo)致兩者的技術(shù)無(wú)法直接遷移。

就像一位建筑設(shè)計(jì)師,被沒(méi)收了電腦,只給他精度不高的尺子和紙筆,他也得重新適應(yīng)新的畫(huà)圖方式。

張航(Cruise高級(jí)主任科學(xué)家):

就是你前面說(shuō)的就是這個(gè)計(jì)算量的問(wèn)題,L2的解決方案,不可能去支持,我們?cè)谝粋€(gè)車的后備箱里面放一個(gè)超級(jí)計(jì)算機(jī),這是一個(gè)不現(xiàn)實(shí)的一個(gè)解決方案。

同時(shí),張航對(duì)L2與L4的技術(shù)比較,也表現(xiàn)出了更開(kāi)放的心態(tài),L2鋪設(shè)的范圍更廣,需要面對(duì)的場(chǎng)景更多,只需要解決基本問(wèn)題即可。而L4的覆蓋范圍有限,但更關(guān)注各種細(xì)節(jié)。所以兩者之間各有優(yōu)劣。

張航(Cruise高級(jí)主任科學(xué)家):

L4本身不能通過(guò)簡(jiǎn)單地去把已有的系統(tǒng)做簡(jiǎn)化,去掉冗余,去作為一個(gè)L2的解決方案,但反之亦然。L2做想做到L4的標(biāo)準(zhǔn),這是一個(gè)很長(zhǎng)的時(shí)間去磨練,你需要很長(zhǎng)時(shí)間的數(shù)據(jù)收集,然后去積累經(jīng)驗(yàn)。

但我覺(jué)得并不是說(shuō),我們的技術(shù)路線,或者技術(shù)深度會(huì)比L2高,我覺(jué)得這個(gè)不一定,L4可能很多并不是說(shuō)很尖端的一些算法,但是就是通過(guò)一些,很細(xì)心地去設(shè)計(jì)去解決這些很細(xì)節(jié)的一些長(zhǎng)尾問(wèn)題。

你會(huì)支持哪個(gè)觀點(diǎn)呢?可以留言告訴我們。在我們的采訪中,這個(gè)問(wèn)題在不同的人眼里,都會(huì)有自己的答案。

于振華(前特斯拉L2工程師):

我覺(jué)得就是在普通的大眾,甚至一些L4公司會(huì)給大家灌輸一個(gè)概念,就是L4技術(shù)優(yōu)于L3,然后優(yōu)于L2。我覺(jué)得這個(gè)是一個(gè)脫開(kāi)它的限制場(chǎng)景,來(lái)誤導(dǎo)大眾,因?yàn)長(zhǎng)4 的現(xiàn)在的Robotaxi,它是有很大限制場(chǎng)景的,必須在特定的這個(gè)地區(qū),比如Waymo,它只能在一個(gè)地區(qū)一個(gè)地區(qū)的運(yùn)行。

邵旭輝(Foothill Ventures管理合伙投資人):

我個(gè)人還是會(huì)看好L4的公司,因?yàn)榫瓦@個(gè)邏輯上來(lái)說(shuō),L4是可以降維打擊的,而L2的話,如果你只做這個(gè),你是升不上去的,或者說(shuō)非常非常難升上去。

匿名受訪者(L4工程師):

其實(shí)在技術(shù)棧上我覺(jué)得沒(méi)有特別難的一個(gè)門(mén)檻,就比如說(shuō)某家公司,他今天可以宣稱,做L2的公司,那也許明天他加了一些新的技術(shù),也可以去做L4,對(duì)吧?這完全看他應(yīng)用采用什么技術(shù),或者說(shuō)有一些什么新的科技突破,對(duì)吧?

侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):

輔助駕駛跟無(wú)人駕駛是兩個(gè)東西。


相關(guān)內(nèi)容