2025年2月18日,特斯拉創始人埃隆·馬斯克旗下的人工智能公司xAI,正式發布了其最新一代大模型——Grok 3。馬斯克在發布會上稱,Grok 3的能力較前代產品Grok 2提升了“一個數量級”,并將其譽為“地球上最聰明的人工智能”。這一消息迅速在科技界和社會各界引發了廣泛關注和熱烈討論。
1. 馬斯克拿到了參與下一輪大模型競爭的船票
a. Grok 3系列模型還不是滿血版;A模型Grok-3仍處于Beta階段,官方宣稱數學(AIME基準)、科學問答(GPQA基準)、編碼(LCB基準)能力超越了GPT-4o、Gemini-2 Pro與DeepSeek-V3;
b. 精簡版Grok-3 mini能更快地回答問題,但準確性會有所降低。
c. 推理模型Grok-3 Reasoning也處于Beta階段,官方宣稱水平超過了o3-mini(high)、o1、DeepSeek-R1,還有Gemi-2 Flash Thinking;
d. 精簡版的訓練時間更長,有時表現略好于beta版的推理模型。相比普通的“Think”模式,如果用更多算力在“Big Brain”模式下推理,它們會更聰明一點。
2. X的高級訂閱用戶將可以率先嘗試Grok 3
a. 推理或深度查詢這些服務會藏在即將推出的SuperGrok訂閱服務中,收費30美元/月或300美元/年(暫不清楚是否會在X的Premium Plus之上額外收費,后者目前每月為40美元);
b. 最快一周,Grok 3將上線“語音模式”;幾周后,Grok 3將向機構客戶開放API,DeepSearch也會在幾周后上線;幾個月后,Grok 3才能最終成熟穩定。
c. 這有點類似馬斯克在特斯拉FSD上的玩法,先讓付費用戶測試,最終迭代成熟。
3. Grok 3的推理能力領先于 DeepSeek-R1
a. 在OpenAI與特斯拉擔任過AI開發重任的大神卡帕西(Karpathy),這次拿到了先行體驗資格。
b. 在他看來,Grok 3的推理能力,大概處于 o1-pro 的水平,領先于 DeepSeek-R1;而DeepSearch功能大致相當于Perplexity的,但要低于OpenAI的。他還發現Grok 3并不能很好地搜索X上的信息。
c. Grok-3是唯一一個在Chatbot Arena上拿到了1400分以上的大模型,這也相當于它的“實戰”水平。它的競爭對手包括Gemini-2、ChatGPT-4o、DeepSeek-r1與o3-mini等。
4. xAI的競爭壓力仍然很大
a. OpenAI已經公開了下一代基礎模型的存在,即相當于o3+GPT-4.5的GPT-5,其中,o3已經于去年12月公布,GPT-4.5將于幾周內發布,而GPT-5會在幾個月內發布。如果卡帕西的評價合理,那么,在幾個月后才能完全成熟的Grok 3,大概率很難打贏GPT-5。OpenAI也在建造星際之門,為下一代模型GPT-5.5增加100倍的算力。
b. 而DeepSeek恰好也在今天介紹了更高效的NSA機制,它可以優化現代硬件設計,在加速推理同時降低預訓練成本,并且不犧牲性能;蛟S更高性價比的V4已經在路上了。
短評:
大模型廠商正在往價值鏈的上下游擴展,尋求降低成本,或增加收入。美國巨頭的大模型擁有更豐富的變現渠道。比如,谷歌閉源的Gemini,Meta開源的Llama,都能賦能自己的互聯網服務。
馬斯克的特斯拉,可以向人類司機提供專業的“代駕”服務;人形機器人擎天柱也是可選項。馬斯克的SpaceX擁有發射與衛星互聯網業務,已經擁有了政府與軍方的訂單;馬斯克還稱再過兩年把Grok裝到火箭上。馬斯克的Neuralink或許也能從中受益。在直播中,馬斯克還半開玩笑地宣稱,將在xAI內部成立一個自動化的游戲工作室。這些是馬斯克繼續參與大模型競爭的最大底牌。
好評理由:
差評理由: