[汽車之家 技術講堂] 2023年11月,特斯拉宣布已開始向員工推出完全自動駕駛(FSD)V12版本,該版本會引入神經網絡系統,使用最新的端到端自動駕駛技術,不再依賴于復雜冗長的代碼。2024年,FSD V12開始全面推送,與此同時,FSD入華也成為可能。一時間,“端到端”成為全世界自動駕駛領域最熱門的詞匯。
端到端到底是什么?落地端到端意味著車將會成為“機器人”嗎?大模型、多模態、神經網絡學習等對全自動駕駛有多大幫助及影響?中國公司在AGI領域的實力究竟如何?前段時間我們探訪了商湯總部,對話了行業專家,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛博士,在采訪中我們也進一步了解了商湯絕影在汽車行業的發展和規劃。
「商湯是AGI領域的佼佼者」
「商湯的業務遍布全球」
一、AGI和傳統的AI有什么區別?什么是端到端?
AI代表人工智能,能夠執行特定任務或解決特定問題,如語音識別、圖像處理和自然語言處理等,能表現出高度專業化但局限于特定領域,現如今AI技術已經成熟并廣泛應用于醫療、金融、交通等行業。
「AI被應用于高鐵檢測」
「AI被應用于礦井作業」
「AI被應用于醫學檢查」
AGI(通用人工智能)指的是具有人類般通用智能的系統,能夠在不同任務和領域中表現出廣泛的適應能力。開發特定領域的人工智能系統相對簡單,通過大量數據和特定算法訓練模型即可,而AGI需要模擬人類的廣泛認知能力和自我學習能力,實現難度極高。
「AGI對技術的要求更高」
「商湯的人工智能大裝置」
想要更好地理解端到端,需要和傳統的自動駕駛控制邏輯進行比較:傳統的自動駕駛系統采用模塊化部署策略,其中每個功能,如感知、預測和規劃,都是單獨開發并集成到系統中的,執行時需要一個環節接一個環節遞進。端到端自動駕駛則能像人一樣,“看”到外界場景后直接就能做出判斷,從信息輸入到決策執行一氣呵成,沒有中間環節。
直接感知強調系統直接從原始數據中獲取環境信息,不經過太多的中間處理和轉換環節,這是端到端中的一個關鍵起始點。直接決策則是基于感知結果直接生成駕駛策略和行動指令,減少了中間復雜的推理和轉換過程,也是端到端的重要體現。
端到端能夠實現整個自動駕駛流程的連貫性和整體性,除了感知和決策,還包括將決策轉化為實際車輛控制動作以及整個過程中的無縫銜接和高效協同。所以,直接感知和直接決策是端到端的核心特征之一,但也不能簡單地將它們與端到端完全等同,端到端是一個更全面、涵蓋整個自動駕駛體系從輸入到輸出的概念。
「端到端是AGI技術發展的關鍵進程」
當然,端到端不僅可以應用在智駕領域,這種大模型更像是人的思考方式,省去了中間繁瑣的步驟,減少了數據的損失,從信息輸入到策略輸出,都使用同一套算法模型,往往是包含大量數據及信息的大模型。端到端的應用,是AGI技術發展的關鍵進程。
二、發展AGI技術的核心是原創性
AGI技術是近幾年全世界各行業的發展重點,身為AGI領域的頂級專家,王曉剛也和我們分享了一些觀點。
談及AGI,就不能不提現今最火的Chat GPT,新的GPT-4o,將大語言模型和多模態相結合,引領了整個行業的發展。但在成功的背后,也是多家頂尖科技公司的共同進步,微軟為Open AI提供了大型軟硬件基礎設施,而相關的基礎算法和Transformer神經網絡模型,谷歌已經研究多年。
「商湯如影數字人視頻生成平臺」
國內雖然也有層出不窮的大語言模型及相關應用,但大部分的原創度并不高,很可能會陷入“價格越卷越低,但核心技術進步緩慢”的尷尬境地。
因此,大模型的發展不應急于商業化,而應著重提升其自身能力。未來的關鍵在于多模態數據的聯合訓練,這需要物理學、心理學、認知科學、數據科學和數學等多個領域的合作,多樣化的數據有助于平衡偏見,減少錯覺,使大模型更穩定可靠。
「語言大模型是近兩年的熱門」
目前,Open AI已經在視頻、圖片、語音和文本等多模態數據的融合訓練上取得一定進展,雖然低延遲和仿生交互只是表象,但其背后蘊藏著AGI的雛形。AGI的實現路徑依賴于訓練數據的質量和多樣性,多模態數據在高維空間中的對齊和融合是當前最大的技術難點。AGI的發展不僅需要技術,還需要信念和熱愛,中國的AGI需要自己的奧本海默,企業應專注于提升核心競爭力和技術的原創性,而非陷入價格戰,以推動中國AGI的長遠發展。
「商湯一直堅持技術原創」
商湯一步步走來,一直堅持技術原創,這也是為什么在那么多人工智能相關的公司中,商湯能夠傲視群雄。早在2014年,商湯團隊就發布了DeepID系列人臉識別算法,首次超過人眼識別率,甚至超過了Facebook同期發布的DeepFace算法,實現了從0到1的突破。
「商湯團隊在國內一眾人工智能公司中傲視群雄」
2018年,商湯開始大模型相關的研究,當時并沒有能提供足夠算力的基礎設施,甚至連國內頂級的互聯網公司阿里和騰訊都沒有,商湯開始在上海臨港進行基礎建設,AIDC人工智能計算中心,提前為之后的AI云計算、云服務布局。有了自己的大型基礎設施,商湯在行業內的發展能夠更加游刃有余。
「AIDC人工智能計算中心位于上海臨港」
2023年,端到端技術伴隨著特斯拉發布FSD V12成為行業關鍵詞,但早在2022年,商湯就發布了端到端技術,并表示端到端是未來。近日伴隨著GPT-4o爆火的多模態,對于商湯而言并非什么新技術,已經研究多年并投入應用。不久前,商湯的SenseChat V5以總分80.03分的成績刷新SuperCLUE國內最好成績,并且在中文綜合成績上超過GPT-4-Turbo-0125,這是國內大模型首次在SuperCLUE中文基準測試中超越GPT-4 Turbo實現登頂。
「商湯的SenseChat V5刷新了SuperCLUE國內最好成績」
商湯一直堅持AGI相關技術的原創,走到世界前列。王曉剛認為,同質化的競爭會導致資源浪費,原創性是推動全球人工智能行業向前發展的源動力。當然,原創也意味著更多的不確定性和更大的風險,但如果成功,對于整個行業而言,突破是巨大的,這也是商湯想要實現的。
好評理由:
差評理由: