[汽車之家 行業] 3月28日-3月30日,以“夯實電動化 推進智能化 實現高質量發展”為主題的中國電動汽車百人會論壇(2025)正式舉辦。
在本屆論壇期間,卓馭科技AI首席技術官陳曉智與包括汽車之家在內的核心媒體進行了交流。陳曉智在交流中表示,近期汽車圈流行的“全民智駕”對于卓馭科技這樣的智能駕駛供應商來說是好事,有利于推動更多車企尋求相關合作。目前,城市NOA功能還有一定的價格下探空間,未來有望在更低價位車型上搭載。
在陳曉智看來,不論是特斯拉FSD這種非激光雷達方案,還是國內高端車型搭載的激光雷達方案,技術上車的本質邏輯應該保持同樣的安全性標準,區別只應該在部分極端場景能否使用上。但車企是否選擇搭載激光雷達,并不僅是出于對智駕系統本身的考量,還會考慮整車的成本、定位、市場宣傳等維度的需求。
對于年內入華的特斯拉FSD功能體驗,陳曉智認為,基礎能力非常強,但對于中國道路交通環境的適應很差。在他看來,除了FSD所呈現出來的常規安全舒適體驗之外,卓馭將在2025年升級到端到端的世界模型,在功能體驗上可能會有更大的升級,實現千人千面的智能駕駛,有能力給用戶FSD上也看不到的功能。
隨著技術的不斷演進,卓馭科技已經開始針對L3技術進行布局。據陳曉智透露,該公司將于2025年內開啟硬件相關能力的布局,預計相關軟件能力的落地還需要兩到三年的時間。
媒體:剛才您演講提到了L3,我想問一下卓馭科技的L3落地有時間表嗎?
陳曉智:關于L3、L4,我們今年會把L3、L4的硬件做出來,包括控制器、傳感器,滿足L3、L4冗余的架構需求。這個傳感器除了視覺攝像頭,還會增加激光雷達來滿足冗余;控制器也會有主系統和備份系統的架構設計。
再下一步,軟件功能的落地,這塊我們認為還需要一段時間。今年,更多要做的事情就是先把硬件預埋,把落地的事情先做了。整個行業,我們認為可能也會是這樣的趨勢,先預埋L3、L4的硬件,等算法,包括安全接管率、效率都提上去之后,我們再在一些特定場景把L3、L4的功能釋放出來。
肯定今年會有一些落地。軟件可能是還需要兩三年的維度。
媒體:大家都知道卓馭在成本控制方面很厲害,F在的全民智駕背景下,預計成本還會不會下探?
陳曉智:全民智駕這個事情,跟我們卓馭一直以來倡導推動的高階智駕普及是比較一致的。過去幾年也一直在做這樣一個事情。比如2023年,我們把全國無圖高速領航下放到10萬出頭的車型;2024年,我們又把記憶城市領航下放到10萬出頭的車型。
我們過去比較擅長的是把高階的智駕功能下放到更低價位區間的車型。今年,大家都說智駕標配、全民智駕,對我們來說是一個比較好的事情。我們也會跟更多客戶加深這方面的合作,幫助他們更輕松地標配這些智駕功能。
我們現在比較關心的像城市領航的功能,它的成本肯定能做到更低。比如目前用的7V攝像頭,再加32tops的算力平臺就可以跑城市領航。目前,大家常見到的動不動跑城市領航要有激光雷達、要有幾百tops算力的平臺還會有比較大的成本,要下放到更低價位區間的車型還是會有一些壓力和挑戰。我們能支持更簡單的硬件就能跑城市領航,可能會有一定的優勢,對于我們的客戶來說推動標配會更容易一些。
媒體:卓馭之前提出過智駕硬件可以插拔更換。卓馭將來會不會把這個想法實施,讓它成為一個正式落地的產品形式?
陳曉智:這個方向其實我們已經落地了,比如在傳感器不變的情況下,同樣是7V攝像頭,我們可以更換算力芯片,從32tops升級為100tops的算力,我們跑的功能體驗還能進一步得到提升。
這樣的方案我們可以做到PintoPin的替換,或者整車替換都可以,別的傳感器、接插件都不需要變。這個我們已經給我們的客戶提供了,預計2025年上半年就會在一些車型上有相應的升級。
媒體:最近一年,我們能看到不同廠商在車載激光雷達態度上有所分化,比如特斯拉和小鵬都明確說以后不會用,像華為和理想甚至全系標配,您怎么評價這種不同廠商的不同態度?
陳曉智:卓馭對于這個問題的觀點一直也沒有變。激光雷達,我們認為它的作用就是提供冗余安全性。當然,可能不同車企有不同觀點,我要標配激光,或者我要減少激光雷達。我們認為,車企他們不僅是對于智駕系統的考量,他們裝不裝激光雷達還會考慮整車的成本,考慮車型的定位,甚至考慮市場宣傳的需求。
從技術角度來說,裝不裝激光雷達,主要還是看冗余安全性。沒有激光不影響基礎能力,我們已經看到像特斯拉FSD。FSD已經進國內了,大家可以體驗到,我們也體驗了,我們會發現它基礎能力非常強,基礎能力的意思就是安全性、舒適性、擬人性,它是非常強的。它沒有激光雷達,但是也可以做到這些基礎能力很強。所以,有沒有激光雷達不影響開車是否是老司機,或者是否安全,不太影響。
如果你要應對一些比較極端的場景,比如說有的媒體朋友可能也會測一些極端場景,比如夜晚有逆光大燈,還遇到一個靜止的黑衣人,這種確實是視覺弱視的場景,加上激光肯定是有用的,對于L3、L4確實要考慮比較極端的場景,你就可以加,加不加激光取決于很多方面的因素,技術以外的因素也有,技術本身的因素也有。
媒體:當前有很多主機廠選擇了自研+供應商合作的技術模式,供應商的角色從單純的方案交付者轉變到技術賦能者的地位,您認為供應商和車企的協作模式未來將發生哪些結構性的變化?
陳曉智:卓馭是作為供應商,我們給我們客戶的提供方式本身是比較靈活的,我們在硬件、軟件、算法各個層面都可以提供相應的合作,比如有的客戶想要一個交鑰匙方案,軟硬件都給他,我們也可以做整套方案給他們。有的客戶可能自己做硬件,或者在第三方采購硬件,我們也可以只提供軟件算法。甚至有的客戶有自研團隊,你能不能賦能我們,給我們提供工具鏈,或者只要部分的算法,我們也是可以提供的。我們卓馭的合作模式本身比較靈活,會針對不同客戶提供不同的合作選項。
對于車企自研,現在大家都看到自研,但是自研這個事情本身會有一定挑戰。未來,不同的車企自研占多大比重可能還是得看持續的產品迭代能做到什么程度。
媒體:最近汽車出海事情是非常熱的,但中國的很多非常好的技術在外國落地時遇到非常多的困難。從您的角度看,卓馭在技術出海方面會遇到哪些問題?
陳曉智:目前,我們海外做得比較多的還是像歐洲那邊的海外適配。這方面適配的挑戰更多不是技術上的,技術上相對簡單,我們的算法模型在國內場景訓練之后到國外場景泛化性會比預想中的要好,比如國內做到100%泛化,到海外的工況可能能做到80%,甚至還要多一些。它不會有太大適配的問題。對我們來說,可能針對一些長尾的場景或者當地一些特殊的場景,比如標識牌等等特殊的交規做相應的適配就可以了。
這里挑戰更多的可能是在數據的采集,還有相應的路側得符合當地的法規要求。這塊,我們也是有對應的合規方案去做海外的適配。
媒體:特斯拉FSD在2025年入華,卓馭和特斯拉FSD之間的優劣勢分別是什么?
陳曉智:我們認為它基礎能力還是非常強的,比較老司機。但是它的短板確實也如很多媒體所體驗的,對中國路況,特別是遵守交規、走對路方面還做得不夠好,還需要一些時間去適配,它的優點和缺點都非常突出。
對于卓馭來說,我們也不太會跟FSD有什么直接競爭關系。他是賣車的,我們是供應商。我們可以幫助國內OEM提供可以跟FSD PK的智駕能力,并且我們在國內的數據以及適配的進展顯然會更加多一些。對于國內OEM來說壓力更大一點。
除了FSD所呈現出來的常規安全舒適體驗之外,我們2025年在技術上還會升級到端到端的世界模型,在功能體驗上可能會有更大的升級。它不僅能提供基礎的安全舒適的智駕體驗,還能做到千人千面的風格,能夠通過自然語言控制這個車輛的行為。這種體驗可能是一些常規車型看不到的,無論是FSD還是別的智駕車型看不到的。從這個體驗上,我們可能也會有一些不一樣的地方。
媒體:最近業內關于一段式、二段式端到端的爭議,有些已經實現了一段式。您怎么看待一段式端到端的趨勢?未來一段式的方案會對成本產生什么樣的影響?可以透露一下卓馭在這方面的布局嗎?
陳曉智:端到端確實會有不同的實現方案,二段式、一段式。
在我們看來,一段式跟二段式我們不太糾結。一段式比二段式只是多了一步,就是白感知和規劃模型串聯起來訓練,二段式的訓練方式就是先訓感知模型,再訓規劃模型,而一段式增加了第三步訓練,就是白感知和規劃串起來訓練我再微調一遍。
對我們來說,我們內部端到端是否要做一段式串聯訓練,會根據每個版本的需求來決定。串聯起來訓練必然訓練的時間更長,訓練周期更長,那么這個版本的發布是否能接受這種迭代周期,這是需要考量的。
對于發版的需求來說,其實每個版本都有一些要解決的問題。比如這個版本要解決某個安全性問題,比如說過路口不夠絲滑的問題。這個問題不見得你要把感知和規劃串聯起來才能解決。你要判斷這個問題是否要把感知也聯合起來微調才能解決,如果不是,只是你的planning的模型就能解決,那我們就沒有必要串聯起來去訓練。
在我們內部看來,它是一個比較靈活的處理方式,我們都可以支持二段式跟一段式的訓練。什么時候做一段式訓練就是根據版本的迭代目標,要解決什么問題來去決定要不要用這個手段。
媒體:DeepSeek開源對于整個AI領域也會有影響。卓馭對于這樣一個開源的技術有什么運用領域,或者我們目前有什么效果?
陳曉智:DeepSeek開源大家都看到很多應用場景都有在探索。但是對于自動駕駛算法來說,它的作用跟原有的大模型區別不大,目前它比較多的還是自然語言的能力,多模態能力可能也是比較常見的,也沒有特別突出。
對于自動駕駛的應用,它更多是技術上對我們會有一些啟發,比如它引入強化學習,以及在訓練的成本上控制得很好,是通過整個訓練系統的優化,使得它使用更少的成本把這個大模型訓出來。在這些技術方面對我們啟發是比較大的,但是直接用這個模型放到我們車上去跑,或者怎么去開車,其實是不太行的,不太能直接去用它。更多是借鑒它的技術,像強化學習、推理的能力。
?媒體:現在國內的車廠提出智駕平權,對于消費者來說他實際體驗上感知區別會怎么樣?對于用戶來說,9萬塊錢買一輛車和20萬買的車,他不知道智駕方面的區別會在哪里?
陳曉智:這個其實要取決于每家車企對不同價位車型所放的功能的區別,我們也不能判斷別的車企是怎么做的。
對于卓馭來說,我們對于不同價位方案的區分度,絕大部分場景能力要做到它們是一樣的,只有在一些比較極端的工況會有區別。
類似于不同的車可能會有不同的電機,有的單電機,有的雙電機,從開車的角度其實沒有區別,你用單電機還是雙電機都能完成開車駕駛這個任務,沒有區別。你可能只在一些特殊場景,比如說地面濕滑,容易打滑的場景,或者下雪天,雙電機可能會好一點,可能會有這些區別,或者追求極致運動,我等紅綠燈的時候,希望有聲浪的聲音出去,可能會有這些區別,但是基本能力是沒有變成。
智駕也是做到類似這樣的區別,大部分場景都有相同的安全性、舒適性、擬人性,只有在一些具體場景有區別。舉個例子,比如可通過性可以有區別,比如說相對低成本的方案,可能在一些狹窄的路段不能通過,它就會告訴用戶說不能通過或者我就剎停,停在這里等待接管,它有這個能力,但是不要影響它的安全性,只是不能通過,它只是沒有這個能力通過,但是你的安全性、舒適性不能變;更高成本的呢,在更窄的路可以通過,可能在通過性的配置上會有區別。
媒體:卓馭科技現在已經公布的定點企業主要是自主品牌和大眾汽車。豪華品牌現在也在找本土化的智駕供應商,卓馭接下來有沒有一些合作的可能性?
陳曉智:除了我們目前正在合作的客戶,我們也一直在跟一些全球客戶在深入交流,相關的合作未來一定還會有增加的,具體是哪些,可能需要再過一段時間,大家可以等官方的消息。我們也一直在拓展這些海外客戶,包括他們在本土化的車型、海外車型。
?媒體:我們用AI只是一個語言模型,比如用DeepSeek或者用ChatGPT,它的模型量或者數據量比較小,但是智駕是非常復雜的情況,它怎么能做到千人千面以及動態調節?
陳曉智:我們上午在會場上也提了一個議價能力,就是千人千面和智駕的能力。它背后的技術關鍵是在于我們在研發端到端的世界模型,它跟傳統的端到端區別在于,傳統的端到端是基于模仿學習,你從大量的駕駛員數據中學習他的行為,就是模仿司機的行為。但是因為你的數據里面各種風格的司機都有,你學出來的風格其實就是一個平均的司機,你沒有區分度,所以它很難做到千人千面,并且它的推理過程也是基于直覺式的。端到端,就是看到一個傳感器輸入就做一個駕駛動作,它是直覺式的一次性動作的預測。
為了做到千人千面,其實要有一些推理的能力,并且要區分不同的風格。我們通過世界模型,世界模型的特點不是直覺式的,它有推理能力,它可以生成未來可能發生的N種情況,就類似N個平行宇宙。N個平行宇宙里面可能有非預期的,有一些不符合用戶駕駛意圖的,你可能需要一個推理過程結合用戶意圖選擇最有可能的駕駛軌跡,大概是這么一個思路。背后的技術核心,一個是世界模型的推理能力,在訓練過程中會引入強化學習去克服模仿學習本身的局限性。
媒體:它的數據量會很大嗎?
陳曉智:數據量其實沒有太大區別,更多是算法上的創新。引入強化學習之后,在長尾數據積累,這種數據還能減少,因為模仿學習,你要模仿一些極端場景的行為,你得采集這個場景的數據。有一些場景數據是很難覆蓋的,強化學習可以通過仿真手段生成這種場景,它可以降低數據采集的需求。
?媒體:剛才您提到低成本和高成本的智駕方案對于路況的解決,我想請您展開聊一下。大家最關注的三個場景,一個是絲滑繞行,一個路口的靈活交匯,還有駕駛預判。這個低成本和高成本是什么樣的解決思路?
陳曉智:首先對于安全性、舒適性,包括擬人性,我們認為在常規場景,不同成本方案還是可以做到非常接近的,但必然會有個別的場景確實會有差異,差異的地方可能會在高動態的場景,需要精密操作的場景,比如說突然快速橫穿一個外賣小哥的車,高成本方案可能會剎得更快一點,響應更快一點,而低成本方案可能會慢一點,但是它也能剎住,安全性是有,但是它可能就是響應慢一點,可能硬件的時延在里面,這是一個例子。
另一種,高精密操作,比如非常復雜的人車混行,各種快速響應周圍行人,或者電動車的交互,這時候你如果高成本的,你這個模型處理的分辨率更大一些,或者算力更大一些,它在這方面還是會體現出來一些更安心的感覺,但是在絕大部分場景,我們認為區別不大。
?媒體:端到端世界模型的問題,業內也有一些廠商在嘗試,比如您剛才說的推理,它其實是在發生環境去做,但是推理相比于強化學習是比較耗時的。我們怎么把在虛擬環境下的能力在最后部署上車的時候實現這方面的能力?
陳曉智:推大家如果了解像思維鏈、慢思考或者推理這些能力,慢思考要處理時間更長,可能沒辦法做到比較高的頻率去處理,在車端應用并非這種用法。車端使用更多是慢思考或者推理更多是做長時的任務規劃,就是對于駕駛的策略它可以做分解。比如說,根據導航,我要大概什么時候左轉繞行,遇到復雜的路況怎么保證我走對路……
它需要更多的規劃,并不是像原來直覺式的端到端,我看到一幀數據就輸出一個動作,它可能會出錯。如果通過更長時的規劃可以做出更加合理的決策,它會是一個結合的過程。這是部署角度的一個方式。
媒體:業內也在談論自動駕駛的終極解決方案,像前面有一些大佬說他覺得VLM可能只能做到L2+,如果要往L3或者往更高級別L4去做的話,可能要做VLA的大模型。不知道您對這個自動駕駛解決方案怎么看?
陳曉智:我們認為,無論是VLM還是VLA,跟是否L3、L4沒有什么必然關系。L3、L4跟L2是安全責任的區別,誰來承擔事故責任,并不是功能的區別。L3、L4就是你的接管率要足夠高,你可能要比人類司機要高幾個數量級,MPI(每次干預行駛的里程數)要高。你選用什么技術,端到端也好,VLM也好,VLA也好,只是影響你的接管率。但是接管率即使做到很低了,也不代表你能做到L3、L4。
L3、L4更多為了實現安全責任,駕駛員不接管,意味著系統必須還有另外一個備份系統代替駕駛員去接管這個車。L3、L4的區別是你得有一個備份系統代替這個人。對于主系統跑的是端到端還是VLA沒有太大關系,至于VLA能不能滿足L3、L4,其實沒有什么關系。
媒體:在電動化時代剛開始的時候,續航其實是有泡沫的,很多用戶會對續航非常焦慮,F在可能大家不會在乎這個。在智駕行業也存在這樣的情況,但是擠泡沫的過程看起來比電動化稍微快一些,您怎么看這個趨勢?大概需要多長時間?
陳曉智:泡沫可能是會不會有一些宣傳過度,導致消費者有一些理解上或者使用上的誤區。
對于這一塊必然會有這樣一個過程。畢竟是新技術,但是我們也看到,智能駕駛的功能,比如像高速領航,在兩年前很多人不敢用、不愿意用,但現在很多人會愿意用了,并且覺得好用,其實需要大家使用的過程。一旦用戶用了,他確實可能就回不去了,它確實能在高速場景解放他的疲勞。
城區的功能,像城市領航,目前確實還沒達到這種成熟度,在功能上必然也會經過像高速領航的階段,后面也會逐步讓更多消費者覺得它安心,愿意用它。但現在其實還是有一定的距離。
對于城市的功能,我們認為在兩年左右就會達到類似高速領航的成熟度。
媒體:2024年,卓馭公布了和英偉達的合作,基于索爾;谒鳡栭_發的一段式端到端方案進度怎么樣?相比于低算力這些方案它的優勢是什么?它的搭載車型有哪些?
陳曉智:索爾是我們今年重點在做的一個平臺,最快實車體驗下個月上海車展大家可能就能體驗到,會是我們一個初步的版本,也會部署端到端的能力。
對于這個平臺,它跟我們原來比如100tops、幾十tops平臺的主要區別是,我們可以上剛才提到的端到端世界模型這種技術。這種技術可以引入像大語言模型這種比較耗算力的模型,你要用100tops去跑確實比較困難,但是有1000tops可以跑VLA也好,世界模型、大語言模型都能跑。跑這些模型從功能上的區別就是能支持剛才我們說的千人千面的駕駛風格,實現個性化駕駛,還有自然語言控制車輛的行為。這些能力可能是中低算力平臺比較難做到。
索爾因為算力大,所以我們在這個芯片上面部署,也能支持座艙的使用。座艙也想部署LLM,智駕也想部署LLM,部署兩套LLM比較費算力。我們會提供一個共享部署的方案,一個LLM解決兩個域的問題,索爾平臺也能支持這種功能。
好評理由:
差評理由: