一個GPT的幽靈在Gemini上空徘徊

新聞視界時報-記者王自凱

每次Google在生成式人工智慧領域祭出大招，都能讓人感到一種隱秘且巨大的情緒力量：隱忍、不甘與較量。
在5月的Google I/O上，Google發佈PaLM系列模型，即被視為是對彼時風頭正盛的GPT-4的強勁挑戰。年底毫無預警地祭出Gemini系列大語言模型（包含移動版Nano、基礎版Pro和高級版Ultra），在關鍵性能和基準評測指標上針對GPT的意圖更加直接。
Google官方聲稱：在被大型語言模型研究和開發廣泛使用的 32 項學術基準中，Gemini Ultra 的性能有 30 項超越了目前GPT–4代表的最先進水準。Gemini標榜“原生多模態”，這讓它一開始就在文本、圖像、音訊、視頻和代碼等組合模態上進行預訓練，故而可能在複雜理解和推理方面有更強表現，特別是解決數學和物理問題。
Google不遺餘力地強調上述優勢——OpenAI走的是“漸進式多模態”的路，先基於文本語料，代碼跟進，再圖像視頻音訊，最後把這些能力組合在一起訓練。而Gemini從一開始就在多模態語料上訓練，再用多模態資料調優，比OpenAI訓練GPT的方法“先進”一些。
“先進”的多模態訓練，理論上能帶來更強勁的性能。公佈的Gemini Ultra學術基準評測結果大面積超越GPT-4的細節似可說明。但學術基準測試本身就是理論的一部分，並不能真正體現應用的效果。不少人擠兌中國一些大語言模型熱衷於基準測試“刷分”，我們該一視同仁，Google的做法與國內大模型沖著超越GPT刷分，本質上沒有什麼不同。
目前社交平臺X上實測Gemini Pro（Bard聊天機器人目前只支持Pro版）的用戶已經貢獻了不少吐槽。比如它混淆了2023年和2022年的奧斯卡獎獲得者，也不會用Python寫入兩個多邊形的交集這種簡單函數。我們還發現它識別不出葉子的數量，以及做不對簡單的求銳角幾何題。即便Gemini Pro對標的是GPT-3.5，它也還是差了點意思。
被人們指出的另一個突出問題是Gemini的宣傳視頻“造假”：Gemini Ultra對一組手勢動作很快做出反應，說這是一個石頭剪子布的遊戲，但它未被視頻顯示的功能文檔卻給出了至少兩條提示：“我在做什麼？”，“提示，這是一個遊戲”。其它的一些測試甚至需要更多的提示問題輔助生成結果，但這個過程在Gemini的官方視頻裡被省略掉了。以至於大多數不太較真的人高估Gemini的理解能力和反應速度，這不能不說是個誤導。
我到現在都記得2017年我在Google I/O的現場，臺上的Google員工演示如何通過Google Assistant語音助手直接預訂一家餐廳，下面掌聲雷動，我也跟著拍巴掌，覺得太棒了。但一個月後即傳出這是一個事先準備好的橋段。Google沒有造假，但它通常太希望展示其AI能力的無與倫比，太急切地呈現自己的AI樂觀主義，以至於經常縮略呈現了背後的過程，也就事實上誇大了效果。
說白了，Gemini視頻的誇張呈現，只是說明Google太在意Gemini比GPT強了。它很著急，加上人們對任何跟ChatGPT較勁的任何大模型，特別是巨頭的“傑作”，通常都比較苛刻。當然，人們對Google是最苛刻的——畢竟OpenAI選擇用Google發明的Transformer架構搞出了劃時代的GPT模型，動機之一就是擺脫Google無所不在的AI壓制，那誰還不希望看見Google露怯呢。
某種程度上，Google是OpenAI在這個星球上唯一的孿生。包括Meta的LLamA架構都是開源的，以馬斯克老師對開源的偏愛，Grok未來大概率也得開源。中國的大語言模型也在不同程度上都走了開源道路。只有OpenAI和Google是堅定閉源的，這就讓Google在大語言模型上的進展，本能地與OpenAI形成了強綁定關係。

還有一個戲劇性的張力：每次OpenAI有圍繞GPT的大動作，輿論都會喊Google出來挨一回落後就要挨的打。然後Google差不多一定會在OpenAI出招之後的一到兩個月，祭出一個新的大招，證明一下你大爺還是你大爺。然後再憋幾個月，OpenAI再出招，Google再被喊出來挨打。格局真就會因此改變麼？
某種程度看，Google在生態建設上還是比OpenAI落後了一個身位。畢竟這個世界上已經有幾百萬個開發者自己做的GPTs了。而Google最早要到明年初才能向開發者和企業客戶提供強化訓練回饋後的Gemini Ultra，讓人們在上面開發自己的應用。到那時恐怕GPT Store都已經正式推出來了。我一直有點困惑，Google當年難道不是靠Android的開源奪得蘋果半壁江山的麼？這次怎麼把這個角色讓給Meta了？
我真的不是要怪Google，我更期待Google證明自己。我們這群在1990年代末接觸互聯網的人，對Google是有一些很微妙的特殊感情的。而Google也必須證明自己的AI First戰略能結出真正的果實。只是GPT的幽靈在Google徘徊，是一個事實。誰都可以試圖擺脫這個幽靈，唯獨Google不行，這是它無可選擇的對手。
其實Google今天圍繞Gemini所做的一切，某種程度上能讓我們中國的大語言模型開發者心有共鳴：大家的頭頂上都徘徊著GPT的幽靈，這就讓大家都試圖通過某些努力，證明自己在某些方面比GPT做得更好。
Google在Gemini基準測試中採用了一切小“技巧”（採用更複雜的思維鏈提示和結果選優，而測試GPT只用5次回饋且無提示詞）獲得了碾壓GPT的成績，類似的測試方法我們是不是聽起來很熟悉？中國的大語言模型研發者有沒有一種老鄉見到了老鄉的戚戚然的感覺？
我們經常喜歡將智譜、百度和Minimax的努力與OpenAI做對比，但換一個思路，其實大語言模型的較量，何嘗不是百度、智譜、Minimax、Google、Meta、Anthropic和Grox們一起在圍攻OpenAI的光明頂？從這個意義上，中國大模型和美國除OpenAI之外的大模型在一個陣營一個戰壕裡，是報團也是互相學習的物件。大模型的百草我們這些神農嘗多了，就發現我們中國的大模型不是比美國的大模型差，只是不如ChatGPT，就這樣。
Google這次訓練Gemini另一個值得圈點的地方，是它完全採用了自家的晶片集群——TPU進行的訓練。Google官宣TPUs v4和 v5e在通過AI優化過的基礎設施上實現了這一大規模訓練，可擴展性強且推理最高效。這恐怕是我們聽說的一款性能還算強勁的大語言模型，不依賴英偉達的算力和軟硬體架構而修成正果的。當然人家TPU是自產自銷的，但我看到了“替代英偉達”這件事在大模型訓練實操上的可能性和可行性。這對中國的大語言模型訓練意味著什麼，不言自明。
此外，Gemini Nano也是一個亮點，這是一款尺寸最小的Gemini模型，優先用於G家自產的Pixel 8手機上。“端側大模型”是近期的一個話題，其實它更接近“小模型”。中國智慧手機廠商OPPO、vivo和小米近期都有發佈自己的端側模型，聯想則從AI PC的維度也切進了事實上的同一個領域。這次Google加入了這個陣營，應該是一個信號，這件事值得努力，有的做。
其實很神奇。從Google這次Gemini模型的發佈，我看到了Google與一眾我們熟悉的中國大語言模型開發者同樣的境遇和努力：那種隱忍、不甘和較量，那種偶爾展露的在一些基準測試關鍵指標上跟OpenAI較勁的小手段和小心思，那些試圖建立自己生態的步步為營，那種試圖擺脫英偉達算力的嘗試，以及基於移動優勢在端側模型的努力……面對OpenAI，大家都是一樣的。
一個GPT的幽靈，在Gemini的上空徘徊，也在我們每一個中國大語言模型的上空徘徊。