無(wú)人駕駛, 真的能落地嗎?
人類研發(fā)無(wú)人駕駛,已經(jīng)消耗了無(wú)數(shù)的時(shí)間與資金。到了今天,事故頻發(fā)、燒錢(qián)無(wú)止境、進(jìn)度緩慢,引發(fā)了眾多不解與質(zhì)疑:無(wú)人駕駛是否是一場(chǎng)騙局,甚至,行業(yè)已死?
這個(gè)行業(yè),真的是我見(jiàn)過(guò)最分裂的行業(yè)之一,各個(gè)派系觀點(diǎn)各不相同、互相瞧不上、互相指責(zé),神仙打架之后,又各干各的,各踩各的坑,各倒各的閉,各花各的錢(qián)。
結(jié)果就是,在2024年之前,無(wú)人駕駛走入了寒冬。
但這個(gè)寒冬,隨著馬斯克號(hào)稱“通過(guò)端到端AI技術(shù)“重構(gòu)了特斯拉的FSD,并宣布要進(jìn)軍無(wú)人駕駛出租車(Robotaxi),似乎又出現(xiàn)了一些新的生機(jī)和希望。
端到端能否帶領(lǐng)我們走向真正的無(wú)人駕駛呢?自動(dòng)駕駛中定義的L2與L4之間真的相隔甚遠(yuǎn)嗎?如今無(wú)人駕駛技術(shù)發(fā)展到哪一步了?純視覺(jué)與多模態(tài)之爭(zhēng),真的沒(méi)有盡頭嗎?
為了探究無(wú)人駕駛行業(yè)到底發(fā)展如何,我們歷時(shí)3個(gè)月,采訪了全球市場(chǎng)上最前沿的無(wú)人駕駛公司,包括Waymo,Cruise的前核心員工、前特斯拉FSD工程師、一二級(jí)市場(chǎng)投資人等多達(dá)十多位自動(dòng)駕駛界的專業(yè)人士。
我們發(fā)現(xiàn)這個(gè)行業(yè)依然割裂,很多技術(shù)路線業(yè)內(nèi)并沒(méi)有達(dá)成共識(shí)。
這個(gè)系列文章我們將從感知、算法、產(chǎn)品、運(yùn)營(yíng)、經(jīng)濟(jì)、法律等多個(gè)角度,全方位一起來(lái)探討如今的自動(dòng)駕駛技術(shù)的最前沿現(xiàn)狀。
本期文章我們先全面聊聊技術(shù),下期會(huì)從運(yùn)營(yíng)與經(jīng)濟(jì)角度解析。
一、自動(dòng)駕駛是什么?
我們先來(lái)做個(gè)概念區(qū)分:無(wú)人駕駛和自動(dòng)駕駛的區(qū)別是什么?
根據(jù)智能化程度的不同,自動(dòng)駕駛被分為L(zhǎng)0到L5共6個(gè)等級(jí):
L0為無(wú)自動(dòng)化,L1指駕駛輔助,L2指部分自動(dòng)駕駛,L3指有條件自動(dòng)駕駛,L4指高度自動(dòng)駕駛,L5指完全自動(dòng)駕駛,即真正的無(wú)人駕駛。
我們之后提到的Waymo和Cruise,以及侯曉迪做的無(wú)人卡車都屬于L4級(jí)別,特斯拉FSD屬于L2級(jí)別,但馬斯克號(hào)稱的特斯拉Robotaxi,卻是L4級(jí)別的。
所以,目前在這個(gè)產(chǎn)業(yè)中,人們說(shuō)無(wú)人駕駛,一般指的是L4的公司,因?yàn)楝F(xiàn)在還沒(méi)人能做到L5;而一般說(shuō)自動(dòng)駕駛,則是包括了所有級(jí)別,是更泛的一個(gè)稱呼。
我們?cè)賮?lái)看看自動(dòng)駕駛產(chǎn)業(yè)是怎么開(kāi)始的。
盡管早在100年前人類就開(kāi)始探索無(wú)人駕駛,但公認(rèn)現(xiàn)代自動(dòng)駕駛正式起源于2004年美國(guó)軍方的DARPA挑戰(zhàn)賽。
經(jīng)過(guò)幾年發(fā)展后,形成了感知(Perception)-規(guī)劃(Planning)-控制(Control)這樣的運(yùn)行鏈路。其中感知模塊包含了感知(Perception)和預(yù)測(cè)(Prediction)。
感知層需要通過(guò)雷達(dá)、攝像頭等傳感器獲取前方路況,并預(yù)測(cè)物體的運(yùn)動(dòng)軌跡、實(shí)時(shí)生成一張周圍環(huán)境的地圖,也就是我們?cè)谲嚈C(jī)上常見(jiàn)的鳥(niǎo)瞰圖,再將這些信息傳遞給規(guī)劃層,由系統(tǒng)根據(jù)算法來(lái)決定速度與方向,最終再下放到執(zhí)行控制層,控制對(duì)應(yīng)的油門(mén)、制動(dòng)和轉(zhuǎn)向機(jī)。
后來(lái)隨著AI的興起,人們開(kāi)始讓機(jī)器自己去學(xué)習(xí)如何開(kāi)車,先讓算法到仿真的數(shù)字世界里開(kāi)車,等仿真訓(xùn)練到一定程度,就可以開(kāi)始上路測(cè)試。
而最近這兩年,隨著特斯拉將“端到端”方案應(yīng)用在FSD V12的版本中,感知-規(guī)劃-控制的運(yùn)行鏈路也開(kāi)始改變。
接下來(lái)我們著重來(lái)聊聊自動(dòng)駕駛產(chǎn)業(yè)在感知這一層面的兩派技術(shù)路線:純視覺(jué)派與多模態(tài)融合派,這兩個(gè)派別在過(guò)去很多年一直在打架,各說(shuō)各的好,我們來(lái)講講它們的恩怨情仇。
二、感知篇:純視覺(jué)Vs.多模態(tài)融合
目前汽車主流的感知方案分為兩種。
第一種是不少公司采用的多模態(tài)融合感知方案,會(huì)將激光雷達(dá)、毫米波雷達(dá)、超聲波傳感器、攝像頭、慣性測(cè)量單元等傳感器采集的信息進(jìn)行匯總?cè)诤希瑏?lái)判斷周圍環(huán)境。
回到我們上一章說(shuō)到的DARPA挑戰(zhàn)賽,2004年第一屆中,雖然沒(méi)有任何一輛車完賽,但一位名叫David Hall的參賽者在比賽中意識(shí)到了激光雷達(dá)的重要性,在比賽結(jié)束后,他創(chuàng)辦的Velodyne開(kāi)始從做音響轉(zhuǎn)向做激光雷達(dá)。
當(dāng)時(shí)的激光雷達(dá)還是單線掃描,只能對(duì)一個(gè)方向測(cè)距,而David Hall發(fā)明了64線機(jī)械旋轉(zhuǎn)式激光雷達(dá),可以360度掃描環(huán)境。
后來(lái)他帶著這臺(tái)旋轉(zhuǎn)式的激光雷達(dá),參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺(tái)頭頂著5個(gè)激光雷達(dá)的車完賽并取得了冠軍。
但這并不是David Hall的車……他的車輛中途因機(jī)械故障退賽了,不過(guò)他的表現(xiàn)確實(shí)讓大家意識(shí)到了,激光雷達(dá)、是個(gè)“外掛”。
到了2007年第三屆DARPA挑戰(zhàn)賽中,完賽的6支隊(duì)伍中,5只都用到了Velodyne的激光雷達(dá)。至此,激光雷達(dá)開(kāi)始成為自動(dòng)駕駛界的香餑餑,Velodyne也成為了車載激光雷達(dá)的龍頭企業(yè)。
張航(Cruise高級(jí)主任科學(xué)家):
現(xiàn)在不管是Cruise、Waymo,基于L4在做的一些解決方案,都是基于激光雷達(dá)為主了,它可以直接拿到位置信息,這樣的話對(duì)于算法本身的要求,就是相對(duì)會(huì)比較低一些,然后很多可以直接通過(guò)傳感器來(lái)拿到這些3D的信息,這樣對(duì)系統(tǒng)的魯棒性,還有對(duì)于安全性,一些長(zhǎng)尾問(wèn)題會(huì)比較輕松。
另一個(gè)技術(shù)派別就是以特斯拉為代表的純視覺(jué)方案了,只靠攝像頭采集環(huán)境信息,然后利用神經(jīng)網(wǎng)絡(luò),將2D的視頻轉(zhuǎn)換成3D的地圖,其中就包含了周邊環(huán)境的障礙物、預(yù)測(cè)的軌跡、速度等信息。
相比激光雷達(dá)方案直接生成3D地圖,純視覺(jué)多了一道2D轉(zhuǎn)3D的過(guò)程,在張航看來(lái),純靠“視頻”這種缺乏3D信息的訓(xùn)練數(shù)據(jù),會(huì)給安全性帶來(lái)一定挑戰(zhàn)。
張航(Cruise高級(jí)主任科學(xué)家):
它需要大量的訓(xùn)練數(shù)據(jù)去學(xué)出缺乏3D的信息,這樣的話缺乏監(jiān)管,因?yàn)闆](méi)有一個(gè)參照物,很難去拿到一個(gè)現(xiàn)實(shí)中的一個(gè)ground truth(真值數(shù)據(jù)),如果完全通過(guò)這種半監(jiān)督的學(xué)習(xí)方法,想要達(dá)到系統(tǒng)的一個(gè)安全性,我覺(jué)得是比較難的。我覺(jué)得特斯拉主要目的還是控制成本,包括修改一些換擋的機(jī)制,都是為了節(jié)約一些零部件方面的成本。
但在特斯拉的前AI工程師于振華看來(lái),選擇純視覺(jué)并不只是節(jié)約成本那么簡(jiǎn)單。
1. 多即是亂?
于振華(前特斯拉AI工程師):
其實(shí)特斯拉原來(lái)的自動(dòng)駕駛系統(tǒng)是有毫米波雷達(dá),傳感器融合其實(shí)是一個(gè)很復(fù)雜的算法,就是它做出來(lái)了并不一定好。
我當(dāng)時(shí)有一輛車,是最后一批有毫米波雷達(dá)的車。在2023年的時(shí)候,我的車進(jìn)行了一次保養(yǎng),服務(wù)工程師就自動(dòng)把我的雷達(dá)給去除了。這一件事情的結(jié)論是什么呢?去掉毫米外雷達(dá)不是為了成本,因?yàn)槲业能囈呀?jīng)有毫米波雷達(dá)在那放著了。根源的原因是純視覺(jué)已經(jīng)勝過(guò)毫米波雷達(dá)了。所以特斯拉是在做減法,把一些他認(rèn)為不需要的冗余的事情去掉,或者說(shuō)累贅的事情去掉。
于振華認(rèn)為,如果融合算法做不好,或者通過(guò)純視覺(jué)就已經(jīng)能達(dá)到足夠好的效果了,那更多傳感器反而成為累贅。
接受我們采訪的很多L4從業(yè)者也同意,信息并不是越多越好,反之,傳感器收集到的太多額外的無(wú)效信息會(huì)加劇算法的負(fù)擔(dān)。
那么馬斯克一直倡導(dǎo)的光靠攝像頭這一種傳感器,到底行不行呢?
2. 少即是多?
馬斯克說(shuō),既然人類僅通過(guò)兩只眼睛就能開(kāi)車,那么汽車也可以僅憑圖像信息來(lái)實(shí)現(xiàn)自動(dòng)駕駛,但業(yè)內(nèi)對(duì)于純視覺(jué)派的擔(dān)心一直是,視覺(jué)欺騙,在過(guò)去這確實(shí)帶來(lái)了不少事故。
比如特斯拉將白色卡車識(shí)別為天空、把月亮識(shí)別為黃燈,又或者理想將廣告牌上內(nèi)容識(shí)別為汽車,導(dǎo)致高速急剎追尾等事故。
這些案例是否意味著,少了深度信息的純視覺(jué)方案,存在先天性不足呢?
于振華(前特斯拉AI工程師):
多個(gè)信息流確實(shí)能提供更多的信息,但是你要解答一個(gè)問(wèn)題,難道攝像頭本身的信息不夠嗎?還是算法挖掘信息的算法能力不足?
比如說(shuō)緊急剎車、在城市道路的時(shí)候有頓挫感,其實(shí)根源就是它對(duì)周圍物體的速度估計(jì)、它的角度估計(jì)不足,如果是這個(gè)原因,那確實(shí)激光雷達(dá)要比攝像頭好很多,因?yàn)樗軌蚪o你提供更直接的信息,就是攝像頭本身其實(shí)也給你信息了,只不過(guò)我們的算法不足夠好,能夠挖掘出這樣的信息。
于振華不認(rèn)為視覺(jué)欺騙的根本原因是攝像頭的信息不足夠,而是算法不足以處理或挖掘攝像頭給的信息。他認(rèn)為,特別是在特斯拉FSD V12算法的推出后,更證明了當(dāng)算法得到了巨大優(yōu)化,攝像頭信息的挖掘和處理就得到了顯著進(jìn)步。
于振華(前特斯拉AI工程師):
今天的FSD V12它不是完美的,有很多的問(wèn)題,但是我到目前為止沒(méi)有發(fā)現(xiàn),哪一個(gè)問(wèn)題是由于傳感器不足。當(dāng)然在V12之前確實(shí)很多是由于傳感器不足,但是今天V12是沒(méi)有這個(gè)問(wèn)題。
但是,L4的從業(yè)人員就有不同的觀點(diǎn)了。他們認(rèn)為攝像頭就是有天然劣勢(shì)的。
張航(Cruise 高級(jí)主任科學(xué)家):
我個(gè)人覺(jué)得是有難度的,我覺(jué)得不一定是算法本身的問(wèn)題。
首先這個(gè)攝像頭本身不像人眼這么復(fù)雜,每個(gè)攝像頭它有一些參數(shù),它有它的局限性。
然后就是算法本身的話,人不需要知道200米范圍內(nèi)所有的車的動(dòng)向都在哪里,我只需要知道哪幾輛車、哪幾個(gè)行人可能影響到我的車的行為,我只關(guān)注在這幾個(gè)點(diǎn)上就夠了,我也不需要很大的算力,可能短期不能夠通過(guò)算法來(lái)達(dá)到這個(gè)高度,我覺(jué)得激光雷達(dá)才作為是一個(gè)方式的補(bǔ)充吧。
從事L4研究的張航認(rèn)為攝像頭無(wú)法與人眼媲美,主要原因在于攝像頭的焦距和像素是固定的,而人眼的精度非常高而且可以自動(dòng)變焦。同時(shí)人類跳躍式的思考模式,短期內(nèi)無(wú)法應(yīng)用在計(jì)算機(jī)上,所以使用激光雷達(dá)才能補(bǔ)充攝像頭的缺陷。
但市面上也有其他的看法,認(rèn)為除了視覺(jué)信息,其他傳感器也會(huì)帶來(lái)干擾信息。
比如說(shuō),激光雷達(dá)也存在自己的缺陷,由于是通過(guò)激光測(cè)距,在面對(duì)一些反射物體、雨雪天氣,或者其他車發(fā)射的激光時(shí),會(huì)對(duì)激光雷達(dá)帶來(lái)干擾,最終造成幻覺(jué)效應(yīng)。
劉冰雁(Kargo軟件負(fù)責(zé)人):
我是非常堅(jiān)定的純視覺(jué)派,這個(gè)世界的道路都是給人和視覺(jué)設(shè)計(jì)的,也就是說(shuō)除了視覺(jué)之外,你采集的信息你可以認(rèn)為都是干擾,當(dāng)然你可以采集,但是那些信息提供的干擾,和它提供的真正價(jià)值,到底是什么樣的分布?我覺(jué)得在視覺(jué)越做越好的情況下,可能是完全相反的。
如果能做好多傳感器融合算法,讓激光雷達(dá)與圖像信息互相驗(yàn)證,或許會(huì)讓系統(tǒng)的安全性進(jìn)一步提升。
侯曉迪提出了一個(gè)形象的比喻:兩個(gè)同等水平的學(xué)霸在考試時(shí),最終一定是使用計(jì)算器的學(xué)霸更輕松,只是經(jīng)濟(jì)基礎(chǔ)決定了買(mǎi)不買(mǎi)得起計(jì)算器而已。
選擇純視覺(jué)還是以激光雷達(dá)為主的多模態(tài)融合方案,這個(gè)辯論已經(jīng)持續(xù)了數(shù)年,并且似乎短期內(nèi)不會(huì)有答案?;蛘?span style="font-weight: 700;">對(duì)一些創(chuàng)業(yè)公司來(lái)說(shuō),什么路線根本也沒(méi)那么重要,而成本和經(jīng)濟(jì)賬才是最重要的。
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
我曾經(jīng)被認(rèn)為是視覺(jué)派的,是因?yàn)楫?dāng)時(shí)買(mǎi)不到激光雷達(dá),所以逼著我們不得不去在視覺(jué)上多去找解決方案。
我也不反對(duì)激光雷達(dá),激光雷達(dá)什么時(shí)候便宜了,我第一個(gè)去排隊(duì)。現(xiàn)在激光雷達(dá)確實(shí)便宜了,所以我也在排隊(duì)買(mǎi)激光雷達(dá),對(duì)我來(lái)講就是,抓住耗子的都是好貓。只要這個(gè)設(shè)備的成本足夠低,只要這個(gè)設(shè)備能從信息論意義上,給我們提供足夠有價(jià)值的信息,我們就該去用它。
大衛(wèi)(《大小馬聊科技》主播):
中國(guó)的自動(dòng)駕駛?cè)芸斓鼐桶堰@些硬件,比如說(shuō)激光雷達(dá)、毫米波雷達(dá),做成了白菜價(jià)。在這種狀態(tài)下是不是還要像特斯拉那樣做純視覺(jué)?其實(shí)很多公司現(xiàn)在就在猶豫了,那我是1000多塊錢(qián)買(mǎi)一個(gè)固態(tài)激光雷達(dá),還是我用純視覺(jué),但是對(duì)算力上會(huì)造成很大的浪費(fèi)。
于振華(前特斯拉AI工程師):
我覺(jué)得?1000塊錢(qián)太貴了,特斯拉連雨量傳感器都不舍得用。
王辰晟(前特斯拉采購(gòu)總監(jiān)):
但是我覺(jué)得隨著供應(yīng)鏈的規(guī)模的上升,成本的大幅下降,在激光雷達(dá)能做到和攝像頭相似的價(jià)格的時(shí)候,特別是在端到端的這樣一個(gè)應(yīng)用場(chǎng)景下,是不是純視覺(jué)還是一個(gè)唯一的路徑?
3. 幡然悔悟?
有意思的是,隨著激光雷達(dá)價(jià)格大幅下降,業(yè)內(nèi)開(kāi)始對(duì)特斯拉即將發(fā)布的無(wú)人駕駛出租車,是否會(huì)用上激光雷達(dá)產(chǎn)生了分歧。
比如張航就認(rèn)為,由于Robotaxi沒(méi)有人類干預(yù),而且出了事需要企業(yè)負(fù)責(zé),特斯拉可能會(huì)選擇更保守的路線,會(huì)用上曾經(jīng)瞧不起的激光雷達(dá)。
張航(Cruise 高級(jí)主任科學(xué)家):
特別是它需要去為企業(yè)事故負(fù)責(zé)的時(shí)候,它需要更加保守,我覺(jué)得可能需要一個(gè)額外的傳感器。從這個(gè)角度看的話,Tesla可能會(huì)采取一些它之前鄙視的技術(shù),只要這個(gè)東西有用,能達(dá)到它L4的目的,它會(huì)逐漸去采用的。
最近我們也發(fā)現(xiàn)特斯拉在做這個(gè)L4、L5的一些方面也在考慮,他也在跟這個(gè)激光雷達(dá)的一些廠商也在聊一些合作,所以說(shuō)可能就是大家殊途同歸。
今年激光雷達(dá)制造商Luminar發(fā)布了第一季度的財(cái)報(bào),顯示特斯拉的訂單達(dá)到了10%,成為了其最大客戶。而于振華卻不以為然,認(rèn)為這并不是什么新鮮事。
于振華(前特斯拉AI工程師):
首先它肯定不是為了以后量產(chǎn)車上使用激光雷達(dá),因?yàn)長(zhǎng)uminar第一季度總收入好像是2000萬(wàn)美元,10%就是200萬(wàn),也不夠裝幾個(gè)激光雷達(dá)。其實(shí)特斯拉的工程車、測(cè)試車上裝激光雷達(dá),也不是什么秘密了,那個(gè)激光雷達(dá)就是用來(lái)采集訓(xùn)練神經(jīng)網(wǎng)絡(luò)的ground truth(真值數(shù)據(jù)),因?yàn)槿斯o(wú)法標(biāo)注那個(gè)物體距離你有幾米,必須要用專門(mén)的傳感器來(lái)標(biāo)注。
但是Lumina為什么在第一季度披露這件事,我其實(shí)也非常疑惑,因?yàn)轳R斯克也當(dāng)時(shí)就回應(yīng)了,說(shuō)我們?cè)赩12了之后,我們不需要真值數(shù)據(jù)了,因?yàn)槎说蕉肆?,占用網(wǎng)絡(luò)是V11時(shí)代的事情,我可能是覺(jué)得這里面有一些誤解,就是從財(cái)報(bào)上或者財(cái)務(wù)規(guī)則上。
雖然目前不確定特斯拉即將推出的Robotaxi是否會(huì)搭載激光雷達(dá),但有一點(diǎn)可以確定的是,以目前特斯拉的感知配置,安全性還不足以達(dá)到L4或者能運(yùn)營(yíng)Robotaxi的程度。
劉冰雁(Kargo軟件負(fù)責(zé)人):
我非常確定現(xiàn)有的特斯拉的這幾個(gè)車型,都有非常明確的盲區(qū),就是視覺(jué)不可達(dá)的盲區(qū),而這個(gè)盲區(qū)就造成,如果他想實(shí)現(xiàn)最終的,不管是L4、L5的自動(dòng)駕駛,他的下一款車一定需要解決這個(gè)盲區(qū)問(wèn)題。
特斯拉最新的端到端技術(shù)更新,以及10月將公布的Robotaxi細(xì)節(jié)猜測(cè),我們會(huì)在第三和第四章節(jié)再詳細(xì)拆解。接下來(lái)我們先探討感知上的另外一個(gè)重要的技術(shù):高精地圖。
4. 歷久彌新?
除了激光雷達(dá)外,高精地圖也是自動(dòng)駕駛感知端中的成本大頭。
高精地圖就是提前采集道路信息,降低感知模塊繪制3D地圖的壓力,并提高準(zhǔn)確性。
說(shuō)來(lái)也巧,最早推行高精地圖的人,正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個(gè)頭頂了5臺(tái)激光雷達(dá)的車主,Sebastian Thrun。
在2004年DARPA挑戰(zhàn)賽時(shí),谷歌正在籌備“街景”項(xiàng)目,谷歌創(chuàng)始人Larry Page親自到了比賽現(xiàn)場(chǎng)去物色人才,在2005年比賽結(jié)束后,Page找上了Sebastian Thrun,邀請(qǐng)他加入谷歌,并將繪制地圖的工作交給了他。
在這個(gè)過(guò)程中,Thrun和Page突然意識(shí)到,如果有一種能精確記錄所有車道線、路標(biāo)、信號(hào)燈等道路信息的地圖,那將對(duì)無(wú)人駕駛帶來(lái)巨大的幫助,這也奠定了高精地圖在無(wú)人駕駛項(xiàng)目中的重要地位。
但是,制作高精地圖非常昂貴,自動(dòng)駕駛公司采集高精地圖的平均成本大約為每公里5000美元,如果要覆蓋全美660萬(wàn)公里的道路,光是采集成本都達(dá)到了33億美元。
再加上地圖頻繁的維護(hù)成本,最終消耗將是無(wú)法想象的天文數(shù)字。
現(xiàn)在已經(jīng)有不少車企,紛紛宣傳舍棄高精地圖的無(wú)圖方案,轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。
我們匿名采訪的一位自動(dòng)駕駛工程師對(duì)此表示,這些對(duì)比宣傳更多的是出于商業(yè)模式的考量,對(duì)于做Robotaxi生意的企業(yè),用上高精地圖能增加安全性,而對(duì)于車企來(lái)說(shuō),舍棄高精地圖能有效降低成本,所以并不意味著舍棄高精地圖技術(shù)水平就會(huì)更高。
匿名受訪者(L4工程師):
華為還有理想,他們的解決方案是量產(chǎn)車,客戶可能是來(lái)自各種城市,你要在任何城市都能開(kāi)。
那現(xiàn)在主流的這個(gè)高精地圖,它的這個(gè)主要的門(mén)檻在于,它需要有一個(gè)地圖采集的過(guò)程,這個(gè)地圖采集的過(guò)程實(shí)際上是相對(duì)來(lái)說(shuō)比較花時(shí)間、人力成本的,然后他也需要專業(yè)的這個(gè)地圖采集設(shè)備。
所以如果是做這個(gè)量產(chǎn)車的生意的話,你不可能說(shuō)我專門(mén)有一個(gè)地圖采集車,我把全中國(guó)都給你跑遍了,這個(gè)是不現(xiàn)實(shí)的。
像特斯拉、華為、理想等L2的公司拋棄高精地圖,是因?yàn)闊o(wú)法覆蓋每一條大街小巷。
而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖,因?yàn)樗麄儼l(fā)現(xiàn),只需要覆蓋一些關(guān)鍵的城市,就能拿下足夠的市場(chǎng)了。
所以,是否使用高精地圖成為了Robotaxi公司的經(jīng)濟(jì)賬問(wèn)題,而不是技術(shù)問(wèn)題。
Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):
如果你單看Robotaxi的商業(yè)模式,把美國(guó)Robotaxi的需求來(lái)劃分,你會(huì)發(fā)現(xiàn)前五大的城市,它已經(jīng)占有了全美一半的商業(yè)體量,你不需要讓它在全美任何一個(gè)地方都能跑,其實(shí)你就已經(jīng)有一個(gè)相當(dāng)大的一個(gè)市場(chǎng)了。
類似地,我們采訪的另一位做L4自動(dòng)駕駛卡車的嘉賓也分享到,他們?nèi)绻獢U(kuò)大運(yùn)營(yíng)線路,也就是擴(kuò)充高精地圖的覆蓋范圍,得先衡量這條線路是否賺錢(qián),否則只是賠本賺吆喝。
這么一圈聊下來(lái),在感知端上,業(yè)內(nèi)也沒(méi)有統(tǒng)一的看法,就像侯曉迪說(shuō)的一樣,抓到耗子就是好貓。
接下來(lái),我們重點(diǎn)聊聊大家最近非常關(guān)注的自動(dòng)駕駛算法層面的最近進(jìn)展,特別是特斯拉近來(lái)大肆宣揚(yáng)的“端到端”,到底是什么技術(shù)呢?它真會(huì)改變自動(dòng)駕駛的行業(yè)方向嗎?
三、算法篇:端到端是自動(dòng)駕駛的未來(lái)嗎?
1. 何為傳統(tǒng)?
傳統(tǒng)的自動(dòng)駕駛的運(yùn)行鏈路是先感知、預(yù)測(cè),再規(guī)劃,最后控制。
感知模塊要先通過(guò)攝像頭、雷達(dá)等傳感器,識(shí)別道路,把這些信息翻譯成機(jī)器能看到的語(yǔ)言,傳遞給預(yù)測(cè)模塊。
預(yù)測(cè)模型就會(huì)判斷其他車輛、行人的行駛軌跡,再把這些信息傳遞給規(guī)劃模塊,去找出風(fēng)險(xiǎn)最低的一條路,最后再將控制信號(hào)傳遞給操控系統(tǒng)。
這時(shí)的算法主要靠“規(guī)則庫(kù)”(Rule base)來(lái)驅(qū)動(dòng),工程師需要不斷寫(xiě)入各種規(guī)則,比如遇到行人得減速、遇到紅燈要停車等,為了考慮到各種情況,規(guī)則庫(kù)就得盡可能覆蓋到各種可能,相應(yīng)地,代碼也非常非常長(zhǎng)了。
這樣的算法有哪些難點(diǎn)呢?
最大的問(wèn)題就在于,系統(tǒng)被劃分成了不同的模塊,但模塊之間的信息傳輸會(huì)有所損失,如果下游無(wú)法拿到全面的信息,預(yù)測(cè)和規(guī)劃的難度就會(huì)增加。
舉個(gè)淺顯易懂的例子,大家都聽(tīng)過(guò)多人傳話游戲吧?10個(gè)人,從頭到尾傳遞一句話,但經(jīng)常這段話經(jīng)過(guò)多人傳遞的過(guò)程,細(xì)節(jié)就會(huì)被丟失或篡改,以至于到達(dá)最后一個(gè)人那里的時(shí)候意思就大相徑庭了。
類似地,在傳統(tǒng)的Rule-based模式下,如果上一層模塊做得不夠好,會(huì)影響到下一層的表現(xiàn)。
另一個(gè)缺點(diǎn)是,規(guī)則都是由人工設(shè)計(jì)定義的,但有限的規(guī)則無(wú)法覆蓋無(wú)限可能的現(xiàn)實(shí)情況,一些不常見(jiàn)且容易被忽略的問(wèn)題,機(jī)器難以拿出對(duì)應(yīng)的解決方法,這被稱為“長(zhǎng)尾問(wèn)題”(long tail case),也叫“極端情況”(corner case),這就會(huì)導(dǎo)致規(guī)模化落地的成本非常高。
于振華(前特斯拉AI工程師):
還有一個(gè)就是,在分兩個(gè)模塊的時(shí)候,我認(rèn)為這個(gè)技術(shù)是很難規(guī)?;模瑸槭裁茨??你每次要在一個(gè)現(xiàn)實(shí)的復(fù)雜場(chǎng)景中新加一個(gè)任務(wù),那么你就要新加一些接口,你就要去改變感知、改變控制規(guī)劃。
比如說(shuō)特斯拉,前幾年NHTSA(美國(guó)交通安全管理局)要求特斯拉能夠檢測(cè)到緊急車輛,比如說(shuō)消防車、救護(hù)車之類的,在感知上你就要求要檢測(cè)這個(gè),然后控制規(guī)劃也要做這個(gè),這只是一個(gè)任務(wù),可能會(huì)成百上千這樣的任務(wù),你要去規(guī)?;?,所以說(shuō)在華為你們知道有幾千個(gè)工程師?大概是6000個(gè)工程師,因?yàn)槟銜?huì)有這么多不斷涌現(xiàn)的新的任務(wù)出現(xiàn),環(huán)境越復(fù)雜任務(wù)越多,我認(rèn)為這不是一個(gè)可規(guī)?;哪J健?/p>
大衛(wèi)(《大小馬聊科技》主播):
那這種方法還是比較老套,雖然說(shuō)看起來(lái),如果做Robotaxi行業(yè)是比較靈的一個(gè)方法論,但是它不能滿足乘用車、幾百上千萬(wàn)臺(tái)車將來(lái)在全世界的路面上行駛。
那有什么辦法能解決這些問(wèn)題呢?這時(shí)候就得聊聊“端到端”(End To End)了。
2. 新超級(jí)明星
在自動(dòng)駕駛領(lǐng)域內(nèi),目前主流的“端到端”定義是:傳感器收集到的信息,不加任何處理傳遞給基于神經(jīng)網(wǎng)絡(luò)的大模型,并直接輸出控制結(jié)果。
也就是說(shuō),不再需要人為編寫(xiě)各種規(guī)則,讓算法跟著投喂的數(shù)據(jù),自己學(xué)會(huì)如何開(kāi)車。
于振華(前特斯拉AI工程師):
因?yàn)槲覀內(nèi)祟愰_(kāi)車,我們腦子里并不是去判斷某輛車的速度和角度的,你就是通過(guò)一個(gè)復(fù)雜環(huán)境來(lái)下意識(shí)地來(lái)做出你的決策。
“讓算法更像人,因?yàn)槿司褪沁@樣運(yùn)轉(zhuǎn)的”這樣的思考邏輯,正是馬斯克帶領(lǐng)特斯拉的前進(jìn)方針,也不奇怪,為什么“端到端”技術(shù)在自動(dòng)駕駛里并不新,卻是被特斯拉第一個(gè)做出來(lái)的。
雖然2023年底,特斯拉才第一次將用上了“端到端”的FSD V12推出,但在自動(dòng)駕駛界,“端到端”并不是什么新鮮事。其實(shí)早在2016年,英偉達(dá)就有論文提出了“端到端”。
而現(xiàn)在,“端到端”也分為兩種,一種是把部分模塊替換成神經(jīng)網(wǎng)絡(luò),這種分模塊的“端到端”,只是一種過(guò)度形式,并不是完全體,因?yàn)楦鱾€(gè)模塊之間要傳遞信息,依然要定義各種接口,造成數(shù)據(jù)損失。
在主流觀點(diǎn)中,只有將多個(gè)模塊融為了一個(gè)整體,去掉了感知層、預(yù)測(cè)層、規(guī)劃層這樣的定義,才算純正的“端到端”。
2023年,CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出,過(guò)去的“端到端”要么只運(yùn)行在部分模塊上,要么需要在系統(tǒng)中插入一些組件。
而這篇論文提出了UniAD的模型架構(gòu),是首次將所有的感知、預(yù)測(cè)、規(guī)劃模塊,都整合到了一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下。
相比傳統(tǒng)Rule-based(規(guī)則驅(qū)動(dòng))的執(zhí)行鏈路,“端到端”不再需要算法工程師去反復(fù)完善規(guī)則庫(kù),所以才有了馬斯克發(fā)布FSD V12時(shí),宣稱“其代碼從30萬(wàn)行縮減到了2000行”。
雖然自動(dòng)駕駛中的“端到端”技術(shù)不是特斯拉發(fā)明的,但特斯拉確實(shí)是第一家公司把神經(jīng)網(wǎng)絡(luò)“端到端”技術(shù)做出來(lái)并推向主流市場(chǎng)的。
3. “端到端”優(yōu)勢(shì)
2023年11月,特斯拉發(fā)布了FSD V12第一個(gè)測(cè)試版本,但僅向選定的員工開(kāi)放。到了2024年初,特斯拉開(kāi)始將FSD V12版本開(kāi)放給美國(guó)所有特斯拉車主,每位車主都有1個(gè)月的免費(fèi)試用權(quán)限。
FSD V12推出后,一時(shí)間掀起了軒然大波,從用戶體驗(yàn)上,我們看到大部分的輿論都認(rèn)為比之前的特斯拉FSD功能進(jìn)步非常大,甚至很多人都認(rèn)為,這是自動(dòng)駕駛界的“ChatGPT Moment”。
大衛(wèi)(《大小馬聊科技》主播):
真正讓我覺(jué)得進(jìn)步的就是規(guī)劃,比如說(shuō)過(guò)環(huán)島,因?yàn)檫@個(gè)過(guò)環(huán)島其實(shí)是在傳統(tǒng)的 planning方向上面是挺難做的,因?yàn)槟闱懊娴能囈尤?,你還要出環(huán)島,這中間如何設(shè)置這種優(yōu)先級(jí)?
你即使設(shè)置優(yōu)先級(jí),那你跟前車和旁邊的車保持多少的距離才能出去,這是一個(gè)其實(shí)挺復(fù)雜的邏輯,但是這個(gè)在新版的FSD上表現(xiàn)確實(shí)讓我覺(jué)得很驚艷,這是給我一個(gè)很大的驚喜。
不少體驗(yàn)過(guò)FSD V12的人表示,這個(gè)通過(guò)人類駕駛數(shù)據(jù)來(lái)學(xué)習(xí)的系統(tǒng),駕駛風(fēng)格非常像人,不再有機(jī)械式算法帶來(lái)的頓挫感。
但與此同時(shí),也有嘉賓在體驗(yàn)后認(rèn)為,FSD V12還沒(méi)有好到讓人非用不可,與L4之間還存在一定差距。
莫傑麟(Justin)(某家族辦公室首席投資官):
但是它沒(méi)有好到GPT4的那個(gè)時(shí)刻,就沒(méi)有好到說(shuō)這個(gè)東西讓我必須得用,或者說(shuō)我立馬就要用,能夠適合在我的很多的場(chǎng)景里面去用。
Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):
高速路相對(duì)它的表現(xiàn)還是比較好的,但在街道上,我覺(jué)得基本上每開(kāi)5英里左右就需要人工接管一次。
尤其是在那種我們叫unprotected left turn(無(wú)保護(hù)左轉(zhuǎn)),它還是比較容易做一些,讓我覺(jué)得不是很安全的行為,如果你MPI(接管里程數(shù))只有5的話,那么顯然離L4的自動(dòng)駕駛還有一定的距離。
我自己也體驗(yàn)了一下FSD 12.4.4的版本,和Waymo這類L4的車輛比起來(lái),目前的特斯拉FSD依然在某些時(shí)候會(huì)嚇我一跳,或者有時(shí)候表現(xiàn)出莫名其妙的行為。
比如在一個(gè)右轉(zhuǎn)彎時(shí),由于它的轉(zhuǎn)彎半徑太大,差點(diǎn)撞到對(duì)向來(lái)車,我不得不手動(dòng)接管。
從表現(xiàn)上來(lái)看,“端到端”的FSD V12依然還有進(jìn)步的空間,而從工程、運(yùn)營(yíng)和管理角度來(lái)看,“端到端”的優(yōu)勢(shì)有三點(diǎn):
第一,能讓系統(tǒng)整體更簡(jiǎn)潔。去掉規(guī)則庫(kù)后,只需要不斷補(bǔ)充訓(xùn)練案例,即可進(jìn)一步提升模型表現(xiàn),維護(hù)和升級(jí)成本也將大幅降低。
第二,節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫(kù),因此不必配備龐大的開(kāi)發(fā)團(tuán)隊(duì),甚至不再依賴專家。
第三,能實(shí)現(xiàn)更大范圍的推廣。大家可以看到目前L4的公司只能在限定地區(qū)運(yùn)行,拋開(kāi)法規(guī)牌照的限制,是因?yàn)榉恰岸说蕉恕狈桨?,需要針?duì)具體地區(qū)做優(yōu)化,而“端到端”各路況都能應(yīng)對(duì),更像一個(gè)“通用”的司機(jī),這也是為什么特斯拉FSD V12被比作ChatGPT的原因之一。
既然“端到端”有如此多的優(yōu)勢(shì),它能解決目前自動(dòng)駕駛面臨的技術(shù)問(wèn)題嗎?
4. 黑盒模型
我們采訪的不少嘉賓認(rèn)為,在現(xiàn)階段,進(jìn)一步發(fā)展端到端的路線是自動(dòng)駕駛領(lǐng)域內(nèi)公認(rèn)的趨勢(shì),但依然存在不少問(wèn)題。
張航(Cruise 高級(jí)主任科學(xué)家):
這個(gè)方向我覺(jué)得是一個(gè)正確的方向,我們不可能通過(guò)一直在以打補(bǔ)丁的方式,來(lái)做出一個(gè)規(guī)?;腖4方案,只不過(guò)是目前我覺(jué)得要快速地達(dá)到一個(gè)L4的方案,也不可能完全通過(guò)端到端的方案,所以現(xiàn)在是一個(gè)矛盾的一個(gè)時(shí)間點(diǎn)。
為什么目前的端到端距離L4還有一定差距,這就要從它的不確定性說(shuō)起了。
端到端就像一個(gè)黑盒子,會(huì)帶來(lái)較多的不確定性。
比如工程師無(wú)法驗(yàn)證,輸入的數(shù)據(jù)案例是否已經(jīng)被模型學(xué)會(huì);或者遇到bug時(shí),無(wú)法定位到底是哪個(gè)環(huán)節(jié)出了問(wèn)題;又或者新加入的數(shù)據(jù),是否會(huì)導(dǎo)致已學(xué)到的知識(shí)被遺忘或覆蓋,這種情況被稱為Catastrophic Forgetting(災(zāi)難性遺忘)。
比如特斯拉FSD 12.4.2的版本,內(nèi)部早就做出來(lái)了,結(jié)果大規(guī)模推送卻花了很長(zhǎng)時(shí)間,馬斯克就解釋道,因?yàn)橥段沟臄?shù)據(jù)中有很多人工接管的視頻,反而讓模型的水平出現(xiàn)了倒退。
由于端到端的本質(zhì)是模仿,如果遇到的情況恰好在訓(xùn)練數(shù)據(jù)中有相似的案例,那就會(huì)表現(xiàn)得非常好,但如果超出了已有的參考案例,則會(huì)表現(xiàn)更差,也就是說(shuō),端到端對(duì)訓(xùn)練數(shù)據(jù)的數(shù)量和案例豐富性要求非常高。
張航(Cruise高級(jí)主任科學(xué)家):
就是在交通路口紅燈的時(shí)候,一定不闖紅燈,就這么一個(gè)簡(jiǎn)單的規(guī)則,如果是heuristic-based(啟發(fā)式的算法),我們可以很簡(jiǎn)單的就是一條 if else,就可以達(dá)到這樣一個(gè)效果。
但是如果是一個(gè)完全端到端的模型,它是完全靠學(xué)習(xí)的,最后他要學(xué)的這樣一條路的話其實(shí)是非常難的。所以我覺(jué)得短時(shí)間內(nèi)端到端對(duì)L4,還是有很大的差距,我覺(jué)得這個(gè)算法是不成熟。
劉冰雁(Kargo軟件負(fù)責(zé)人):
你沒(méi)有一些硬性規(guī)則,就是所有的、你設(shè)置的這種不能做的事情,他都可以嘗試去做一下。于是會(huì)在模擬里邊出現(xiàn)很多一頭撞過(guò)去的現(xiàn)象。
同時(shí),端到端帶來(lái)的不可解釋性,也是一些人擔(dān)心的問(wèn)題。
所謂的不可解釋性,就是改變其算法模型中的任意一個(gè)權(quán)重、節(jié)點(diǎn)或?qū)訑?shù),都會(huì)讓模型的表現(xiàn)產(chǎn)生難以預(yù)測(cè)的影響,即使是模型的設(shè)計(jì)者和訓(xùn)練者,也無(wú)法知道中間的推理過(guò)程。
與之相對(duì)的是可解釋性,比如在Rule-based的模式下,工程師已經(jīng)寫(xiě)入了“當(dāng)檢測(cè)到塑料袋飄過(guò)時(shí)可以繼續(xù)行駛”的規(guī)則,那我們就不用擔(dān)心遇到這種情況會(huì)突然來(lái)個(gè)急剎車。
劉冰雁(Kargo軟件負(fù)責(zé)人):
大家看到V12里,他在屏幕上的顯示也好了很多,但他所謂的端到端,這個(gè)顯示從哪兒來(lái)的?如果這個(gè)顯示來(lái)自原來(lái)的這個(gè)模型,那牽扯的一個(gè)問(wèn)題就是,我們實(shí)際上在這個(gè)模型里邊已經(jīng)加了一層,人為定義的接口,使得你可以從這個(gè)模型中的某一個(gè)位置,提取出這個(gè)信息。
另一種我覺(jué)得是更恐怖的事情,就是這個(gè)顯示是完全走了另外的一個(gè)路徑,那也意味著車上顯示前面有一輛卡車,不代表控制的模型真的認(rèn)為前面有一輛卡車,如果這一點(diǎn)被破壞了,那將是非常非??植赖?,你看到顯示它前面有一輛車,但你不確定它不會(huì)撞上去。
他是否是真正的端到端,我實(shí)際有點(diǎn)懷疑,或者說(shuō)我也許不是懷疑,但是這里邊可能有別的危險(xiǎn)性。
王辰晟(前特斯拉采購(gòu)總監(jiān)):
那對(duì)于像自動(dòng)駕駛這個(gè),對(duì)于安全系數(shù)要求這么高的行業(yè)來(lái)說(shuō),端到端模型帶來(lái)的這個(gè)不可解釋性,是不是硬幣的另外一面?
由于目前特斯拉還未公布FSD V12的技術(shù),我們并不知道FSD是否采用了多模塊的策略,但我們發(fā)現(xiàn),已經(jīng)有車主遇到了畫(huà)面顯示與實(shí)際行為不符的案例。
比如車輛構(gòu)建的鳥(niǎo)瞰圖顯示前方有人,卻沒(méi)有表現(xiàn)出任何剎車的痕跡,而是繼續(xù)行駛過(guò)去,所幸只是感知端的誤檢,沒(méi)有發(fā)生事故。
這個(gè)案例雖然可以看出,在端到端算法下,上層錯(cuò)誤不會(huì)影響下層決策的優(yōu)勢(shì),但也表現(xiàn)了規(guī)劃層偶爾會(huì)不認(rèn)可感知層的結(jié)果,印證了劉冰雁的擔(dān)憂。
不可解釋性是否會(huì)成為阻礙端到端發(fā)展的一大難題呢?接下來(lái)就是我們看到的第三個(gè)沖突。
于振華(前特斯拉AI工程師):
我認(rèn)為是這樣的,AI一個(gè)很嚴(yán)重的問(wèn)題,就是它的理論性是遠(yuǎn)遠(yuǎn)滯后的。
AI沒(méi)有告訴你這個(gè)一定行、一定不行。所以說(shuō)它是一個(gè)實(shí)驗(yàn)性的學(xué)科,它不算科學(xué),就需要一個(gè)大量的驗(yàn)證。
V12是全面碾壓V11,所以這是結(jié)果說(shuō)話的一個(gè)問(wèn)題。那難道你會(huì)想,端到端有這個(gè)不可解釋性那一頓什么什么,因?yàn)樗婺雺?,那就是一個(gè)非常無(wú)腦的,你就應(yīng)該往下走。
于振華認(rèn)為,AI作為實(shí)驗(yàn)性的學(xué)科,只要結(jié)果達(dá)到了預(yù)期,就能證明方向正確,應(yīng)該繼續(xù)推進(jìn)。而侯曉迪表示,V12表現(xiàn)大幅領(lǐng)先于V11,只是因?yàn)閂11的基礎(chǔ)太差,其表現(xiàn)距離真正的無(wú)人駕駛還比較遠(yuǎn)。
王辰晟(前特斯拉采購(gòu)總監(jiān)):
如果真的是Full Self Driving,以L5來(lái)去限制的話,它一定要過(guò)監(jiān)管部門(mén),他們需要有一個(gè)可解釋性或者可預(yù)測(cè)性。
再加上,世界上有這么多的城市,就在美國(guó)來(lái)說(shuō),每個(gè)城市可能都會(huì)有不一樣的法律法規(guī)。這個(gè)車無(wú)論從硬件軟件上,需不需要去適應(yīng)當(dāng)?shù)氐姆煞ㄒ?guī),變成了這個(gè)能不能規(guī)?;囊粋€(gè)很大的問(wèn)題。
端到端不能通過(guò)人為定義規(guī)則,來(lái)對(duì)模型進(jìn)行微調(diào),所以能否適應(yīng)不同法規(guī),成了端到端規(guī)?;奶魬?zhàn)。
同樣影響規(guī)?;囊蛩兀谟诙说蕉藢?duì)數(shù)據(jù)量和傳感器更敏感。
5. 前途未卜
劉冰雁(Kargo軟件負(fù)責(zé)人):
端到端有一個(gè)非常嚴(yán)酷的問(wèn)題,就是它對(duì)傳感器會(huì)更敏感,也就是說(shuō)當(dāng)你換了傳感器或者換了傳感器的分布的時(shí)候,你這個(gè)模型可以說(shuō)得完全重頭訓(xùn)。
從另一個(gè)角度來(lái)說(shuō),工程上不可接受,或者說(shuō)我們無(wú)法想象之后全世界路上跑的都是同一款車。
一旦更改了傳感器分布,會(huì)讓模型失效,得重新開(kāi)始訓(xùn)練,為了訓(xùn)練又得采集大量數(shù)據(jù),必然會(huì)帶來(lái)巨大的成本。
美國(guó)財(cái)經(jīng)媒體CNBC報(bào)道稱,到2023年初,為了訓(xùn)練FSD,特斯拉就用到了1000多萬(wàn)段特斯拉車主的駕駛視頻。
而且這1000多萬(wàn)段訓(xùn)練數(shù)據(jù)可不是隨便用的,必須是駕駛水平比較高的人類司機(jī),否則只會(huì)讓模型的水平越來(lái)越差。
所以訓(xùn)練端到端模型不光要求數(shù)據(jù)多,還得經(jīng)過(guò)復(fù)雜的篩選,這個(gè)過(guò)程中又得消耗大量人力。對(duì)于賣車多的特斯拉可能不在話下,但對(duì)于其他公司來(lái)說(shuō),數(shù)據(jù)來(lái)源卻成了大問(wèn)題。
大衛(wèi)(《大小馬聊科技》主播):
很多主機(jī)廠因?yàn)槊つ孔非筇厮估翘追椒ㄕ?,然后?dǎo)致有點(diǎn)被忽悠瘸了,就是這套東西確實(shí)不適合90%的主機(jī)廠。
那是否意味著,其他廠商真的無(wú)法進(jìn)入端到端的領(lǐng)域呢?
雖然英偉達(dá)和特斯拉都是通過(guò)純視覺(jué)來(lái)驅(qū)動(dòng)端到端算法運(yùn)行,但端到端實(shí)際上也可以接受多模態(tài)輸入。
目前常用的毫米波雷達(dá)、激光雷達(dá)、超聲波雷達(dá)等傳感器,在車輛上的位置相對(duì)固定,特別是激光雷達(dá),基本都在車頂上,所以采用多模態(tài)接入的端到端,就能利用不同車型采集的數(shù)據(jù),來(lái)訓(xùn)練模型,而且留給主機(jī)廠的設(shè)計(jì)空間也會(huì)更大。
又這么一圈聊下來(lái),每種算法都各有千秋,哪種方式能帶我們徹底走向全無(wú)人駕駛的未來(lái)依然不明朗。
張航(Cruise高級(jí)主任科學(xué)家):
我不覺(jué)得在當(dāng)下有任何一個(gè)算法能,又簡(jiǎn)單又規(guī)?;?,然后又能達(dá)到L4標(biāo)準(zhǔn),我覺(jué)得這個(gè)算法本身是不存在的,這個(gè)領(lǐng)域是一個(gè)大家一起去推動(dòng)的。我是非常樂(lè)觀,大家會(huì)殊途同歸,雖然大家會(huì)稍稍有一點(diǎn)點(diǎn)不同的偏差。
6. 無(wú)計(jì)可施
不論是哪種算法,最終都要面對(duì)長(zhǎng)尾問(wèn)題。
在傳統(tǒng)Rule-based(規(guī)則驅(qū)動(dòng))模型下,編寫(xiě)規(guī)則庫(kù)(rule base)需要龐大的團(tuán)隊(duì)耗費(fèi)大量精力,還很難做到面面俱到,那有了端到端后,長(zhǎng)尾問(wèn)題能得到解決嗎?
Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):
他解決了常規(guī)的案例,但是長(zhǎng)尾的問(wèn)題我覺(jué)得依舊會(huì)存在。
Minfa認(rèn)為,自動(dòng)駕駛系統(tǒng)的容錯(cuò)率很低,如果要將一個(gè)黑盒系統(tǒng)用在L4上,必須引入其他安全機(jī)制,但這樣又回到了Rule-based模式下的成本問(wèn)題。
自動(dòng)駕駛算法會(huì)先到仿真系統(tǒng)里練習(xí),那仿真訓(xùn)練可以解決一定的長(zhǎng)尾問(wèn)題嗎?
張航(Cruise高級(jí)主任科學(xué)家):
目前還沒(méi)有一個(gè)很好的方案能通過(guò)生成的模擬數(shù)據(jù),對(duì)我們的現(xiàn)實(shí)中的道路表現(xiàn)有真正有很大的幫助。
Minfa Wang(前Waymo高級(jí)機(jī)器學(xué)習(xí)工程師):
像自動(dòng)駕駛或者機(jī)器人的領(lǐng)域里邊,環(huán)境是非常非常復(fù)雜的,你要仿真的話,仿真的不只是你自己,這個(gè)車會(huì)未來(lái)怎么動(dòng),主要困難的是,當(dāng)你自己的車的軌跡發(fā)生變化的時(shí)候,你會(huì)影響周圍的所有的車和人的行為也發(fā)生變化。
如何能夠很好地仿真,然后并且能夠不出現(xiàn) distribution shift(分布偏移),我覺(jué)得依舊是一個(gè)開(kāi)放性話題。
既然虛擬的場(chǎng)景無(wú)法完全模擬出現(xiàn)實(shí)的種種可能,那是否意味著,目前業(yè)內(nèi)沒(méi)有辦法解決長(zhǎng)尾問(wèn)題,只能靠漫長(zhǎng)地積累經(jīng)驗(yàn)?zāi)兀?/p>
匿名受訪者(L4工程師):
某種程度上是吧,但你也不用做到,就是特別完美,對(duì)吧?人類也不完美,你只要做得比人好就行。人也有他的事故率,你只要做得比這個(gè)好就夠了。
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
我覺(jué)得長(zhǎng)尾問(wèn)題其實(shí)也是一個(gè)偽命題,就這個(gè)很高興你們提出來(lái)這個(gè)事情。
在我看來(lái)長(zhǎng)尾問(wèn)題,比如說(shuō)我見(jiàn)到鱷魚(yú)怎么處理?我見(jiàn)著大象怎么處理?我見(jiàn)著一個(gè)固定翼飛機(jī)停在高速公路上,我怎么處理?
實(shí)際上對(duì)于很多長(zhǎng)尾問(wèn)題,我們是讓它包裹成一大類問(wèn)題的,見(jiàn)到我沒(méi)見(jiàn)過(guò)的物體,怎么處理?如果你把它包裹成了一個(gè)更總體的一類問(wèn)題的話,它是很好處理的。
比如說(shuō)我們?cè)?jīng)就見(jiàn)到有固定翼飛機(jī)停在高速公路上,那我們的處理方案很簡(jiǎn)單,停車呀對(duì)吧?
長(zhǎng)尾問(wèn)題到底是不是偽命題,或者它是不是需要解決的問(wèn)題?這個(gè)話題可能大家都有自己的答案。而長(zhǎng)尾問(wèn)題對(duì)應(yīng)的是,L4甚至L5何時(shí)才能大范圍鋪開(kāi),所以接下來(lái),我們就來(lái)看看L2與L4的激烈沖突。
四、特斯拉Robotaxi能成嗎:L2與L4的沖突
1. “成不了”
我們?cè)隈R斯克宣布推遲發(fā)布Robotaxi之前就詢問(wèn)了各位嘉賓的看法,大家對(duì)此的看法非常統(tǒng)一,那就是今年特斯拉的無(wú)人出租車是不可能上線的。
大家觀點(diǎn)如此統(tǒng)一的最大原因,就在于目前特斯拉已有的車型,達(dá)不到L4標(biāo)準(zhǔn)的無(wú)人出租車。
劉冰雁(Kargo軟件負(fù)責(zé)人):
我非常確定現(xiàn)有的特斯拉的這幾個(gè)車型,都有非常明確的盲區(qū),如果他想實(shí)現(xiàn)最終的,不管是L4、 L5的自動(dòng)駕駛,他的下一款車,一定需要解決這個(gè)盲區(qū)問(wèn)題。而解決這盲區(qū)問(wèn)題又回到我們現(xiàn)剛才說(shuō)的,它一定要調(diào)整相機(jī)傳感器的位置,而傳調(diào)整這些位置立刻帶來(lái)的結(jié)果就是,就是之前這個(gè)模型會(huì)完全失效。
就是現(xiàn)有的車從視覺(jué)攝像頭架構(gòu)的角度來(lái)說(shuō),是不可能達(dá)到,可以完全無(wú)人接管的FSD的。從這個(gè)角度來(lái)說(shuō),它必須有一款新的硬件出現(xiàn)。
張航(Cruise高級(jí)主任科學(xué)家):
從傳感器角度,它需要引入一些冗余,這個(gè)可能之前L2是不需要的。
在業(yè)內(nèi)人士不看好的情況下,是什么原因讓馬斯克對(duì)推出Robotaxi如此有信心呢?
于振華(前特斯拉AI工程師):
我認(rèn)為主要還是這個(gè)FSD V12的幾個(gè)技術(shù)突破,作為馬斯克他的這個(gè)性格,他看到FSD V12今天這一刻,在他的這個(gè)計(jì)劃里面,他就覺(jué)得Robotaxi應(yīng)該必須擺上日程了。
所以,F(xiàn)SD V12能讓特斯拉走向L4,承擔(dān)起Robotaxi的重任嗎?和目前已有的Waymo或Cruise比起來(lái)差距有多大呢?
在采訪侯曉迪這個(gè)問(wèn)題時(shí),他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點(diǎn):那就是L2和L4的差距非常遠(yuǎn)。
2. “差很遠(yuǎn)”
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
首先特斯拉做的不是無(wú)人駕駛,我們今天談的是去掉人,并且由軟件開(kāi)發(fā)公司承擔(dān)責(zé)任的方案,才叫無(wú)人駕駛,咱們不要虛假宣傳, FSD叫輔助駕駛,它不是無(wú)人駕駛,所以做的不是一個(gè)東西。
目前被廣泛應(yīng)用在車企上的都是L2輔助駕駛,比如特斯拉、小米、華為、小鵬等等,而像Waymo、Cruise、百度等做無(wú)人出租車的企業(yè),則采用的是L4高度自動(dòng)駕駛,拋開(kāi)書(shū)面的概念定義,這兩者之間的本質(zhì)區(qū)別就在于,誰(shuí)來(lái)承擔(dān)責(zé)任。
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
去掉人并且由軟件開(kāi)發(fā)公司承擔(dān)責(zé)任的方案才叫無(wú)人駕駛。講一笑話,如果特斯拉撞死人了怎么辦?對(duì)Elon Musk來(lái)講,its not their business(這不關(guān)他的事)。
所以,如果特斯拉想做無(wú)人出租車,就必須做到自己承擔(dān)責(zé)任。那輔助駕駛和自動(dòng)駕駛之間,從技術(shù)上又有哪些區(qū)別呢?
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
L4無(wú)人駕駛要解決的核心問(wèn)題是什么?是安全性,是冗余,是當(dāng)一個(gè)系統(tǒng)的每一個(gè)模塊都有可能會(huì)失效的時(shí)候,這個(gè)系統(tǒng)還仍然能夠保障最底線的安全。這件事是L4最難和最關(guān)鍵的部分。在掙錢(qián)之前它要先解決安全性的問(wèn)題,但是這件事情根本不是特斯拉的設(shè)計(jì)宗旨。
另外一位L4自動(dòng)駕駛研究員也分別從硬件與軟件的角度,分析了L2和L4之間的區(qū)別。
張航(Cruise高級(jí)主任科學(xué)家):
L4的解決方案,首先是我們有比較強(qiáng)的傳感器,這個(gè)可能很難在L2場(chǎng)景里面去用,起碼不會(huì)用這么高精度的激光雷達(dá)。
從算法角度可能L2公司更注重的是一些,更有效能把成本降得很低,然后不需要特別昂貴的傳感器,然后可能更少的計(jì)算就可以達(dá)到這樣一個(gè)效果。這些L2其實(shí)不需要考慮這種百萬(wàn)分之一的案例。
那我們L4追求的是,一百萬(wàn)英里以上才需要引入一次的人類遠(yuǎn)程協(xié)助,追求的就是這種百萬(wàn)分之一的案例。
總結(jié)一下:L4的方案,采用的傳感器精度更高,芯片的算力會(huì)更充足,能應(yīng)對(duì)的場(chǎng)景也更全面。
但L2的方案中,首要考慮的是成本問(wèn)題,所以硬件水平會(huì)稍低一些,同時(shí)算法為了適應(yīng)水平稍低的硬件,會(huì)更注重效率而非安全,這樣L2的接管頻率會(huì)比L4高很多。
那么,像特斯拉這樣做L2的公司,能否通過(guò)提升硬件與軟件,來(lái)達(dá)到L4的效果呢?
3. “兩碼事”
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
我不支持L2緩慢進(jìn)化到L4、L5的路線,我覺(jué)得這件事情又是一個(gè)帶有很強(qiáng)這種外推屬性的偽命題。
假以時(shí)日,海豚能不能進(jìn)化出文明來(lái)?我覺(jué)得有可能,但是我們要知道地球文明已經(jīng)容不下海豚去進(jìn)化了,因?yàn)橐呀?jīng)有公司做出來(lái)了,我這個(gè)公司就是為了能夠最快速的把L4落地。我落了地以后就沒(méi)你什么事兒了,對(duì)吧?智人拿起標(biāo)槍的時(shí)候就沒(méi)有海豚去產(chǎn)生文明什么事兒了。
在侯曉迪看來(lái),目前已有的L4公司已經(jīng)筑起了技術(shù)壁壘,激烈競(jìng)爭(zhēng)下,不會(huì)給到L2進(jìn)化的機(jī)會(huì),同時(shí),也有人認(rèn)為,這并不意味著L4的技術(shù)比L2更高級(jí),只是大家針對(duì)的場(chǎng)景不同。
于振華(前特斯拉AI工程師):
如果說(shuō),真的L4比L2像大家所想象的,在技術(shù)上是絕對(duì)的高級(jí)、絕對(duì)的領(lǐng)先。那么我想請(qǐng)問(wèn)為什么L4技術(shù)不能夠直接降級(jí)成了L2?
事實(shí)上是在過(guò)去的很多年里面,L4公司由于收入的壓力,都在幫車廠去做L2,但是他不能夠簡(jiǎn)單地降級(jí),他基本上都要重新開(kāi)發(fā)。
那我們也知道在美國(guó),GM(通用汽車)是擁有Cruise L4公司,福特是擁有Argo AI,也是個(gè)L4公司,為什么GM不能使用Cruise的技術(shù)在它的量產(chǎn)車上?為什么福特不能使用Argo AI的L4技術(shù)在它量產(chǎn)車上?所以說(shuō)L4并不是比L2絕對(duì)高級(jí),在技術(shù)難度上,我不認(rèn)為你做L4了,你就顯得非常高級(jí)。
為什么L4的技術(shù)不能直接降級(jí)成L2使用呢?張航對(duì)此解釋道,由于L4所采用的硬件規(guī)格更高,而L2的算法必須適應(yīng)規(guī)格更低的傳感器和算力較少的處理器,才導(dǎo)致兩者的技術(shù)無(wú)法直接遷移。
就像一位建筑設(shè)計(jì)師,被沒(méi)收了電腦,只給他精度不高的尺子和紙筆,他也得重新適應(yīng)新的畫(huà)圖方式。
張航(Cruise高級(jí)主任科學(xué)家):
就是你前面說(shuō)的就是這個(gè)計(jì)算量的問(wèn)題,L2的解決方案,不可能去支持,我們?cè)谝粋€(gè)車的后備箱里面放一個(gè)超級(jí)計(jì)算機(jī),這是一個(gè)不現(xiàn)實(shí)的一個(gè)解決方案。
同時(shí),張航對(duì)L2與L4的技術(shù)比較,也表現(xiàn)出了更開(kāi)放的心態(tài),L2鋪設(shè)的范圍更廣,需要面對(duì)的場(chǎng)景更多,只需要解決基本問(wèn)題即可。而L4的覆蓋范圍有限,但更關(guān)注各種細(xì)節(jié)。所以兩者之間各有優(yōu)劣。
張航(Cruise高級(jí)主任科學(xué)家):
L4本身不能通過(guò)簡(jiǎn)單地去把已有的系統(tǒng)做簡(jiǎn)化,去掉冗余,去作為一個(gè)L2的解決方案,但反之亦然。L2做想做到L4的標(biāo)準(zhǔn),這是一個(gè)很長(zhǎng)的時(shí)間去磨練,你需要很長(zhǎng)時(shí)間的數(shù)據(jù)收集,然后去積累經(jīng)驗(yàn)。
但我覺(jué)得并不是說(shuō),我們的技術(shù)路線,或者技術(shù)深度會(huì)比L2高,我覺(jué)得這個(gè)不一定,L4可能很多并不是說(shuō)很尖端的一些算法,但是就是通過(guò)一些,很細(xì)心地去設(shè)計(jì)去解決這些很細(xì)節(jié)的一些長(zhǎng)尾問(wèn)題。
你會(huì)支持哪個(gè)觀點(diǎn)呢?可以留言告訴我們。在我們的采訪中,這個(gè)問(wèn)題在不同的人眼里,都會(huì)有自己的答案。
于振華(前特斯拉L2工程師):
我覺(jué)得就是在普通的大眾,甚至一些L4公司會(huì)給大家灌輸一個(gè)概念,就是L4技術(shù)優(yōu)于L3,然后優(yōu)于L2。我覺(jué)得這個(gè)是一個(gè)脫開(kāi)它的限制場(chǎng)景,來(lái)誤導(dǎo)大眾,因?yàn)長(zhǎng)4 的現(xiàn)在的Robotaxi,它是有很大限制場(chǎng)景的,必須在特定的這個(gè)地區(qū),比如Waymo,它只能在一個(gè)地區(qū)一個(gè)地區(qū)的運(yùn)行。
邵旭輝(Foothill Ventures管理合伙投資人):
我個(gè)人還是會(huì)看好L4的公司,因?yàn)榫瓦@個(gè)邏輯上來(lái)說(shuō),L4是可以降維打擊的,而L2的話,如果你只做這個(gè),你是升不上去的,或者說(shuō)非常非常難升上去。
匿名受訪者(L4工程師):
其實(shí)在技術(shù)棧上我覺(jué)得沒(méi)有特別難的一個(gè)門(mén)檻,就比如說(shuō)某家公司,他今天可以宣稱,做L2的公司,那也許明天他加了一些新的技術(shù),也可以去做L4,對(duì)吧?這完全看他應(yīng)用采用什么技術(shù),或者說(shuō)有一些什么新的科技突破,對(duì)吧?
侯曉迪(前圖森未來(lái)創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
輔助駕駛跟無(wú)人駕駛是兩個(gè)東西。