![]()
日前,諾獎得主、Google DeepMind 首席執行官 Demis Hassabis 在一檔訪談節目中,圍繞人工智能(AI)技術的演進與未來發展趨勢進行了分享。
在訪談中,Demis 分享了從游戲 AI 到當今推理模型的演變歷程,探討了 Genie 3 等世界模型如何幫助 AI 理解現實,以及為何需要像 Kaggle Game Arena 這樣的測試平臺來評估通用人工智能(AGI)的新進展。
整個訪談呈現了 AI 從專項智能向全能模型邁進的路徑,為理解 AGI 的未來發展方向提供了獨特視角。
學術頭條在不改變原文大意的情況下,對節選內容做了精編。如下:
Genie 3:讓 AI 理解物理世界
Demis 表示,Genie 3 是 DeepMind 多個研究分支融合的成果,是多種想法的結合。其核心目標是構建 “世界模型” —— 即讓 AI 理解物理世界的規律,包括物理結構、材料特性、液體流動、生物行為等。
他們一直把棋盤游戲作為一個具有挑戰性的領域,來改進 AI 算法思想。在過去,人們經常把電腦游戲當作挑戰,也用來創建合成數據。無論是過去和現在,研究人員都在使用大量的模擬環境,非常逼真的環境,如 3D 游戲引擎,來為系統創建更多訓練數據,以幫助它們理解物理世界。
Demis 指出,“人類不僅生活在語言和數學世界中,更身處物理世界中”,AGI 若想要真正發揮作用,顯然需要理解物理世界這一現實基礎。無論是依賴對物理世界預判的機器人技術的突破,還是 AI 日常助手,對時空背景的把握,都離不開世界模型的支撐。
此外,它還需要理解使用者所處的時空背景,所以需要一個世界模型來真正理解這個世界及其運作方式。而證明擁有一個好的世界模型的方法之一,就是能夠生成這個世界。
“有很多方法可以測試你的世界模型的有效性和深度,但一個很好的方法是讓它進行逆向操作,生成關于這個世界的一些東西。”
為訓練這一能力,他們利用 3D 游戲引擎等模擬環境生成大量數據,讓 AI 在虛擬場景中學習現實規律。Genie 3 最顯著的特點是能生成具有一致性的世界:
當用戶暫時離開其創建的虛擬場景,再次返回時,場景狀態與離開時保持一致。這種特性證明它并非隨機生成內容,而是對世界運作建立了穩定的底層模型,例如,“打開水龍頭會有液體流出”“鏡子能反射出影像” 等邏輯都能在生成過程中得到體現。
在應用層面,Genie 3 已用于內部訓練。DeepMind 的游戲 agent SIMA,可以直接操控并玩現有的電腦游戲。如果將其放入 Genie 3 中,那么就能得到一個 AI 在另一個 AI 的頭腦中進行游戲這種結果。SIMA 會決定采取什么行動,并發出行動指令,Genie 3 則實時生成對應的環境變化,形成 “一個 AI 生成世界、另一個 AI 在其中探索” 的閉環。這一模式能為機器人技術、AGI 系統訓練創建無限的訓練數據。
Demis 提到,Genie 3 在互動娛樂領域有潛在價值,可能催生介于電影與游戲之間的新型娛樂形式。從科學視角看,它與視頻模型共同為探索現實本質提供了新維度 ——通過 AI 對世界的模擬與生成,人類得以從不同角度思考 “現實的本質”。
Game Arena:面向AGI的動態評估基準
為應對 AI 系統 “鋸齒智能” 等問題,Google DeepMind 與 Kaggle 合作推出了 Game Arena,作為評估 AGI 進展的新測試平臺。讓模型去玩各種不同的游戲,并測試它們的能力。
在“首屆”大模型對抗賽決賽中,OpenAI 的 o3 擊敗了馬斯克的 Grok 4,成功奪冠。谷歌的Gemini 2.5 Pro 則在半決賽中輸給了Grok 4。
在 Demis 看來,這些系統要成為真正的 AGI,所缺少的東西之一就是一致性。Demis 指出,當前 AI 系統存在能力不均衡的現象:它們能在 IMO 中獲得金牌,卻可能在高中數學、簡單邏輯問題或特定游戲中犯低級錯誤;能根據文本提示生成模擬世界、理解視頻,但仍有一些相當簡單的事情,小學生都能輕松做到,而這些系統卻做不到。這種不一致性是 AGI 發展需突破的關鍵障礙。
他認為,現有評估基準存在局限性。“可能在推理、規劃、記憶方面還缺少一些能力,除了擴展之外,這些領域可能還需要一兩項新的創新。”
這些系統,包括 Gemini,都是非常通用的。但目前的研究團隊所使用的很多 benchmark 已經開始變得飽和。
以數學領域的 AIME 為例,DeepMind 的模型的最新結果已達到 99.2% 的正確率,意味著已經進入了一個回報非常有限的階段,這些 benchmark 正迅速達到飽和,甚至可能因測試本身的誤差影響評估效果。
因此,需要更難、更廣泛的 benchmark,涵蓋物理世界理解、直覺物理、物理智能及安全特性等維度。
Game Arena 的設計基于游戲場景,使它具備多方面的優勢:
首先,游戲是非常純粹的測試場所。你可以通過游戲得到 Elos 等級分,它們是非常客觀的性能衡量標準。沒有主觀性,不需要讓人類來進行 A/B 測試、決定評級等等,從這個意義上來說它是非常科學的。
其次,隨著 AI 系統能力提升,游戲難度可自動調整。系統在比賽中相互較量,能力增強則測試自動升級,Game Arena 的全部意義就在于讓最優秀的模型相互競爭。
另外,隨著系統越來越完善,他們還可以逐步在 Game Arena 中引入更復雜的游戲,從象棋擴展至數千種,最終形成綜合評分,評估 AI 在多領域的通用能力。它們應該能在所有游戲中都表現出色,既可以是電腦游戲,也可以是棋盤游戲。
在他看來,或許最終 AI 系統應該能發明自己的游戲,然后教給其他 AI 系統,讓它們去學習,就像是學習一個從未存在過的新游戲,這樣就不可能出現過度擬合訓練數據之類的情況了。Demis 有很多關于這種多 agent 環境的想法,他同時也認為 Game Arena 最終應該能夠支持這種環境,成為一個非常重要且影響深遠的 benchmark。
在更混亂或更貼近現實世界的領域,如何確定有待優化的獎勵函數或目標函數,這一直是強化學習面臨的難題。在人類世界里,沒有單一的目標函數,情況非常復雜。人是多目標的,會根據其他狀態,比如情緒狀態、物理環境以及在職業生涯中的位置等所有這些因素,不斷地調整不同目標的權重。但不管怎樣,Demis 認為,我們總能憑借自己的智慧度過難關,大致能弄清楚正確的“北極星”是什么。
同時,Demis 指出,通用系統也必須做到這一點,它們要學會理解人類用戶想要實現的目標,然后弄清楚如何將其轉化為一組有用的獎勵函數來進行優化。
Demis 強調,Game Arena 的意義在于回歸 DeepMind 研究本質:早期以游戲為挑戰改進 AI 算法,如今游戲仍是理想測試場。未來,還需要支持 AI 自創游戲并相互教學,避免訓練數據過度擬合,更真實地檢驗通用學習能力。
作為 AGI 發展的重要基準之一,Game Arena 將與其他新型評估工具共同作用,確保 AI 系統在認知能力的各個維度得到全面檢驗。
One more thing
除 Genie 3 和 Game Arena 外,Demis 還談到了其他大模型相關熱門話題。
Thinking 模型的演進是重要方向。以 Deep Think 為代表的系統,延續了 AlphaGo 等早期游戲 AI 中基于 agent 的系統思路,強調 AI 的思考、規劃與推理能力。這類系統可進行深度思考和并行規劃,在數學、編程、科學問題等領域通過反復推演優化結果,而非直接輸出初始結論。Demis 認為,這是實現 AGI 的必要路徑。
工具使用成為 AI 能力擴展的新維度。Thinking模型在推理過程中可調用搜索功能、數學程序、編碼工具等,更新規劃方案。對于數字系統而言,“工具” 與 “主模型能力” 的邊界存在模糊性,比如象棋能力是整合并入主模型,還是作為工具調用,需要通過實證判斷。若某種能力有助于提升其他能力,則整合入主模型,反之則考慮作為工具。
AI 正從權重模型向完整系統轉變。早期模型的輸入輸出模式較為簡單,而如今的系統能結合工具使用、規劃與思考能力,實現更復雜的功能。這種轉變要求產品設計具備前瞻性,需要預判一年后的技術水平,允許底層引擎定期更新(周期可能短至三到六個月),以適應技術的快速迭代。
作者:小瑜





京公網安備 11011402013531號