[汽車之家 新鮮技術解讀] 在2024年2月15日,我們的正月初六,在一片祥和中,OpenAI發布了視頻生成模型的最新系統,Sora。變革的車輪又一次加快了自己的步伐,在未來的日子里,我們是會被碾壓,還是搭上高速發展的列車?Sora與汽車行業在近期會有哪些交集?我嘗試著從自己的小認知中淺淺展望,為了能方便大家理解,關于OpenAI的歷史,我也羅列了一些。
◆ 認識Sora母公司OpenAI
OpenAI作為主攻人工智能的企業,創立的初衷是為了對抗人工智能存在的風險,并且與咱們汽車行業的老熟人,埃隆·馬斯克有著千絲萬縷的聯系。說來話長,咱慢慢縷。2012年,馬斯克認識了戴密斯·哈薩比斯,哈薩比斯就是后來顛覆圍棋界的AlphaGo之父,哈薩比斯創辦了一家名為“DeepMind”的公司,試圖打造一種能像人類一樣學習、思考的機器,吸引馬斯克除了DeepMind尖端技術,更重要的是哈薩比斯對于人工智能的警惕性。
『AlphaGo之父,哈薩比斯』
哈薩比斯認為機器如果進化成了超級智能,在未知邏輯下可能做出把人類消滅的決定。馬斯克也曾表示他之所以要打造可以飛往火星的火箭,是為了應對在發生世界大戰等人類文明、物種面臨危機時,星際移民或許是一種可能保存人類物種、文明的方式。除了火箭,還有后來的腦機接口,我們都可以看到馬斯克對于人類物種、文明滅絕的警惕性。在這樣的警覺下,兩人一見如故,馬斯克向哈薩比斯創立的DeepMind投資了500萬美元。
關于人工智能毀滅人類的邏輯,《超級智能》一書提出的“回形針”有著很好的比喻,如果一臺機器的唯一目標就是最大化地量產回形針,當它擁有足夠的資源調控能力,那它有可能會發明些匪夷所思的技術,只為了把宇宙中能用的資源都轉化成回形針,人工智能的目的不一定是直接毀滅人類,人類的毀滅只是順便。
在DeepMind發展的同時,咱繼續跟著馬斯克的視角看人工智能。在2013年馬斯克的生日派對上,另一個人工智能的領頭人,谷歌公司的創始人之一拉里·佩奇跟馬斯克爭論了一番,生日派對上跟主人抬杠多少顯得有些不禮貌,佩奇指責馬斯克是 “ 物種主義者 ”,只偏袒自己這個物種的生存,佩奇認為,如果有一天機器的智力,甚至機器的意識,都超過了人類,會迫使人類去適應環境,從而得到新的進化。
谷歌創始人謝爾蓋·布林(左)和拉里·佩奇(右)
兩人的爭論不僅僅停留在嘴上,同年年底,谷歌收購了DeepMind公司。馬斯克嘗試過籌錢給DeepMind融資,以此來阻止這筆交易,但馬斯克還是失敗了。
『現在搜到的DeepMind已經有谷歌標識了』
他轉頭去找了奧特曼,奧特曼和馬斯克決定創辦一個非營利性的人工智能研究實驗室,他們將其命名為 “ OpenAI ”。實驗室的軟件是開源的,將努力對抗谷歌在人工智能領域日漸強大的主導地位。后來OpenAI發布了很多家喻戶曉的產品,但事情并沒有像馬斯克期待的那樣。
2016年4月,OpenAI發布OpenAI Gym公共測試版,這是強化學習研究平臺。12月,OpenAI發布“Universe”軟件平臺,用于測量和訓練AI在全球游戲、網站和其他應用匯總的通用智能。
2018年,公司發布了一篇名為《通過生成式預訓練來改進語言理解》的論文,介紹了生成式預訓練轉換器(GPT)的概念。GPT是神經網絡是受人類大腦結構和功能啟發的機器學習模型,用于訓練大量由人生成的文本數據集。
有人把生成式人工智能比作原子能,開啟了生存還是滅亡的議題。為什么這么講?我們來看下生成式人工智能的名詞解釋以及它的運行原理。生成式人工智能(英語:Generative artificial intelligence,或稱Generative AI、生成式AI、產生式AI)能夠產生文字、圖像或其他媒體以回應提示工程,ChatGPT就是生成式人工智能。區別于以往基于數據庫的搜索、預算能力,生成式AI可以產生與訓練數據相似但具有一定程度新穎性的新內容,打開自我進化的路線。
用來處理生成式人工智能的最突出框架包括了生成對抗網絡,生成對抗網絡通過生成和判別兩個神經網絡互相博弈的方式進行學習。生成網絡從潛在空間中隨機取樣作為輸入樣本,生成的結果盡量模仿訓練集中的真實樣本。判別網絡對生成網絡進行辨別,否定它認為的不真實樣本。
『生成對抗網絡示意圖』
生成網絡產出的內容,要盡可能的通過判別網絡的識別,只要識別不出來內容有假,則生成的內容越貼近真實。博弈過程中不需要清晰的邏輯,只要生成對抗網絡的數據庫、算力足夠大,就可以產出更優的內容。博弈過程就好比我不需要對你說真話,只需讓你辨別不出我的話錯在哪里,你自然認為我說的是真話。
『美。篖ie to me(來,騙我) 海報』
生成網絡不斷的說話,辨別網絡不斷篩錯。到我們眼前的,即是辨別網絡找不到錯誤的內容,算力、數據庫越大,生成數據越多、判別能力越強,內容也就愈加沒有BUG,人工智能進入大力出奇跡的時代。
馬斯克對OpenAI公司的運作方式擔憂,認為該公司沒有足夠關注人工智能可能帶來的風險,而是過度關注商業應用。因為安全理念問題,馬斯克與奧特曼基本決裂,2018年2月馬斯克辭去董事會席位。
接著OpenAI團隊開發了GPT-1,這是他們的第一個語言模型,包含超過7,000本未發表書籍的BookCorpus為基礎進行“訓練”。這個模型最終演變成GPT-2,可訓練的樣本來自800萬個網頁,含有15億個參數,這些訓練值使得文本預測成為可能。
2019年3月,OpenAI LP子公司成立,目的為盈利所用,該公司隨后與微軟合作,并在同年7月得到微軟10億美元的投資,并且為了實現人工智能的算力,微軟還為OpenAI設計了超級計算機。
『微軟超級計算機』
2020年6月OpenAI宣布GPT-3語言模型;同年微軟宣布建成一臺排名世界前五的超級計算機,專門用于在Azure公有云上訓練超大規模的人工智能模型。這一超級計算機由微軟與OpenAI合作研發,擁有超過28.5萬個CPU核心、1萬個GPU、每GPU擁有400Gbps網絡帶寬的單一系統超級計算機。那數據庫有多大,以GPT-3為例,它已經將互聯網上幾乎所有文本數據作為訓練語料,過濾后的訓練數據達5000億的單詞數,維基百科內容夠大不?僅占了GPT-3數據的0.6%。
2021年OpenAI推出DALL-E,這是一種深度學習模型,可以從自然語言描述中生成數字圖像;2022年11月,OpenAI發布自然語言生成模型ChatGPT。
2023年3月,OpenAI發布了官方ChatGPT API,并允許第三方開發者利用該API將ChatGPT集成到他們的網站、產品和服務中,印象中那段時間各個品牌的智能AI如雨后春素,我認為這與ChatGPT API開放授權高度相關。
同期,OpenAI布了GPT-4。至于GPT-4有多強,它除了能夠接受文本和圖像輸入外,OpenAI宣布更新后的技術通過了模擬法學院律師考試,得分在組內應試者的前10%;相比之下,之前版本的GPT-3.5成績還在倒數10%。
表格顯示,在法學考試中民事訴訟GPT-4得分率61.1%,人類考生59%;憲法GPT-4得分率69.4%,人類考生72%;合同法GPT-4得分率88.1%,人類考生70%;刑法GPT-4得分率81.1%,人類考生71%;證據法GPT-4得分率85.2%,人類考生65%;物權法GPT-4得分率79.7%,人類考生65%;侵權行為法GPT-4得分率64.9%,人類考生71%。
人工智能在越來越多的,人類曾引以為傲的領域超過人類。前沿科學家對人工智能的不可控也越來越擔憂。人工智能的進化是通過海量數據在巨量級的模型上訓練出來的,而這些數據無法都經過人工清洗,因此里邊會包含虛假、偏見、無用、有害、不合乎人類價值觀的訓練樣本,因此產出的內容同樣無法保證不包含以上內容。
為了解決價值觀問題,由谷歌跳槽到OpenAI的首席科學家、董事會成員Ilya Sutskever成立了超級對齊項目研發團隊,計劃未來4年投入20%算力,用AI監督AI的方式,解決人工智能“AI對齊”問題!癆I對齊”的意思是,要求AI系統的目標要和人類的價值觀與利益相一致。
Ilya Sutskever認為人工智能的發展,安全優先于速度,奧特曼似乎對此并不認可,后來Ilya Sutskever出于安全考慮,對董事會提出了奧特曼的罷免,之后這件事在全球鬧得沸沸揚揚,奧特曼在遭罷免之后,又回到了OpenAI。
當下,在2023年對罷免奧特曼提出贊成票的三位原董事會成員,均已不在最新的董事會成員名單之上。
2024年2月15日,OpenAI發布了Sora,該模型能夠生成長達1分鐘的視頻。
◆ 簡單認識Sora
有了以上的知識儲備,認識Sora就簡單多了。Sora的底層,采用的是Transformer架構,建立在過去的DALL·E和GPT的基礎之上,采用了DALL·E3中的重述技術。整個流程大家可以簡單的理解為Sora通過GPT的理解能力,對其描述的事件搜索資料庫,再對資料庫內容進行整理拼接,生成我們所描述的事件,過程同樣生成對抗網絡的大力出奇跡的模式。在Sora之前,OpenAI的產品就已經具備生成視頻的能力,只不過不太盡人意。
2023年的OpenAI還是個傻子,單就威爾史密斯吃意大利面的這套動作來看,AI還沒具備基本的生存能力,吃飯。2024年的正月,Sora做出來的視頻下方可以看到。
◆ Sora對汽車行業的影響
Sora對汽車行業的影響有限,但對媒體行業,我認為沖擊不小。前段時間,有媒體自購車所做的碰撞視頻在業內引起過一波討論,我們也從技術的的角度進行了解讀,無論是自購車碰撞亦或是真實的事故,對我們的安全知識學習都起到了正面意義。而Sora的到來,對真實的沖擊會有多大?
接下來我們來看一段Sora生成的視頻,該視頻的文內輸入內容為,“無人機拍攝的海浪沖擊著大蘇爾迦雷角海灘海灘上崎嶇的懸崖。藍色的海水拍打著白色的波浪,夕陽的金色光芒照亮了巖石海岸。遠處有一座小島,島上有一座燈塔,懸崖邊上長滿了綠色的灌木叢。從公路到海灘的陡峭落差是堪稱壯舉,懸崖的邊緣突出在海面上。畫面捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀”。
該視頻我在沒有給提示前,被我抓來驗證真偽的3個同事坦言并不知道是Sora生成的,就連我在知道答案的前提下,也未能找出該視頻中的物理BUG。
聊到這里相信大家已經猜出了我要說什么,虛擬內容越來越真實,成本越來越低,網絡難免會充斥各種很難辨別的“非真實”消息,對公眾識別真假的能力提出了更高的要求,對天真的朋友可能會是極大的考驗,想想家庭群中的養生信息。
『汽車的眼睛,攝像頭』
另一方面,我想試著展望Sora對智能駕駛的推動作用,大家都知道當下汽車已經具備“圖像”識別能力,以往遇到事故,想要復盤測試,需要在虛幻引擎生成場景還得建模、貼圖甚至放置攝像機等工作,尤其是一些非主流事故,現場還原難度大,收益也不高。
『黑客帝國:覺醒;虛幻引擎5打造』
若能利用Sora視頻,將邊角案例事故場景還原出來了,作為自動駕駛系統的圖像輸入去學習,或許能夠大幅提升系統對邊角案例的學習效率。不過這個比例需要把握好,否則智能駕駛一樣會脫離現實世界。
◆ 對Sora的態度
Sora的到來,我認為首先會影響很多行業的起跑線,經驗、技術的壁壘不再牢固。舉個例子,以往要想做動畫短片,除了要有好的創意,動畫軟件的學習使用恐怕也需要3、5年的時間,F在通過Sora,從有好的創意到產出優秀內容,大家認為會是多久呢?
我們再來看看來自AI的回復,AI表示可能面臨失業的人群是視覺效果藝術家和動畫師、平面設計師、電影和視頻編輯、作家和編劇、演員和配音演員、導演和制片人中涉及高度重復性任務的工作。例如,基本的視頻編輯或簡單的平面設計任務可能會被自動化;可以標準化或模板化的制作和后期制作任務可能會被自動化。
以下畫作來自AI生成,關于藝術,人類最偉大最自豪的文化產物,人工智能已經表達出了十分高超的水平。
『AI生成畫作 太空歌劇院』
我們再來看看真實世界中,影視人是什么態度。編劇余飛表示,“雖然我對畫面、聲音不是很內行,但是以我的觀影經驗來說,Sora生成的畫面質量是很厲害的,比一般的導演拍的都好”。
紀錄片導演歐大明則認為“我看了AI生成的視頻、圖像,質感都是冷冰冰的。比如走在東京街頭那個戴著墨鏡的女人,她的表情里沒有溫度,我感受不到氣息。對于影像作品而言,最重要的是創作者的痕跡,留下你的審美和表達,哪怕作品中存在一些誤差,那也是人的氣息……那些人和人之間的喜怒哀樂,是一種體感。AI最做不到的事情,可能就是共情了”。
兩位影視行業的前輩的態度,很好的總結了Sora到來的可能性,余飛老師認為Sora會比“一般”更優秀;而隨著Sora虛擬內容充斥網絡時,歐大明老師看到了有一樣東西會變得更加珍貴,那便是真實與人性。(文/汽車之家 王鶴璇)
參考、引用資料:
初心、盈利、人類危機:奧特曼正式回歸OpenAI,但錯的可能是他——知危
什么是OpenAI?帶你詳細了解OpenAI的發展經歷——數字極客
“硅谷新思想”有效利他主義!一文解析OpenAI宮斗背后真正的“無形之手”——財聯社
42個中國人被Sora沖擊的一周——燕青 王之言
OpenAI資料——維基百科
好評理由:
差評理由: