我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
7月22日消息,AI霸權之爭已達到新的頂峰,Google DeepMind和OpenAI現在都聲稱(chēng),其模型可以征服國際數學(xué)奧林匹克競賽(IMO),這堪稱(chēng)人類(lèi)最艱難的智力挑戰之一。
美國時(shí)間周一,谷歌宣布其Gemini Deep Think AI在2025年IMO比賽中獲得了官方認證的金牌。而在幾天前,其競爭對手OpenAI也宣布,其模型在同樣的比賽中獲得了相同的頂級分數,但OpenAI的成績(jì)尚未經(jīng)過(guò)正式認證。
這一突破標志著(zhù)AI推理能力的一次巨大飛躍,證明了通用型AI模型能夠在解決復雜數學(xué)問(wèn)題時(shí)達到人類(lèi)頂尖水平。與此同時(shí),這一進(jìn)展也進(jìn)一步加劇了兩大AI巨頭之間的競爭。
AI挑戰人類(lèi)智力巔峰
國際數學(xué)奧林匹克(IMO)是全球最具聲望的青少年數學(xué)競賽,始于1959年,每年舉辦一次。每個(gè)參賽國派出六名頂尖中學(xué)生數學(xué)選手,他們需解答六個(gè)在代數、組合學(xué)、幾何學(xué)和數論等領(lǐng)域極其復雜的問(wèn)題。其中,約8%的參賽者將獲得一枚聲望卓著(zhù)的金牌。
近年來(lái),IMO逐漸成為了AI系統的一個(gè)重要挑戰平臺,用以測試AI在數學(xué)問(wèn)題解決和推理能力上的最新進(jìn)展。去年,Google DeepMind的AlphaProof和AlphaGeometry 2聯(lián)合系統曾達到銀牌水平,解決了四個(gè)問(wèn)題并獲得28分。這一突破依賴(lài)于專(zhuān)門(mén)的形式化語(yǔ)言,展示了AI在接近人類(lèi)頂級數學(xué)推理能力方面的進(jìn)展。
今年,Google DeepMind的Gemini模型提交的結果首次經(jīng)過(guò)IMO協(xié)調員的官方評分和認證,評分標準與學(xué)生選手一致。在肯定今年學(xué)生選手所取得的顯著(zhù)成就之余,谷歌也分享了Gemini在此次比賽中的突破性表現。
從銀牌到金牌:AI推理的飛躍
Gemini Deep Think的高級版本在2025年IMO中表現出色,完美解決了六個(gè)極難問(wèn)題中的五個(gè),獲得了總分35分,達到了金牌水平。這些解決方案已經(jīng)在線(xiàn)公開(kāi),任何人都可以在線(xiàn)查看并驗證其正確性。
IMO主席格雷戈爾·多利納爾(Gregor Dolinar)教授表示:“我們可以確認,Google DeepMind已經(jīng)達到了人們非常期待的里程碑,在滿(mǎn)分42分中獲得了35分——這是一個(gè)金牌分數。他們的解決方案在許多方面都令人驚嘆。IMO的評分員發(fā)現它們清晰、精確,且大多數都易于理解。”
與去年的成績(jì)相比,谷歌今年的成就具有里程碑意義。2024年,谷歌的AlphaGeometry和AlphaProof系統雖然達到了銀牌標準,但當時(shí)它們依賴(lài)于專(zhuān)家首先將問(wèn)題從自然語(yǔ)言轉化為專(zhuān)用的領(lǐng)域語(yǔ)言(如Lean),而證明過(guò)程則需要反向操作,整個(gè)過(guò)程也需要兩到三天的計算時(shí)間。
今年,Gemini模型的一個(gè)關(guān)鍵創(chuàng )新是能夠全程使用自然語(yǔ)言進(jìn)行操作,直接從官方的題目描述中生成嚴謹的數學(xué)證明。這一切都在嚴格的4.5小時(shí)比賽時(shí)間限制內完成。
“批量制造”真正的AI數學(xué)家?
OpenAI與谷歌都將最近在IMO上取得的成就視為通用AI的重要勝利。OpenAI研究員諾姆·布朗(Noam Brown)在社交媒體上表示:“恭喜Google DeepMind團隊在IMO上取得的成績(jì)!我認為他們的成功再次突顯了AI進(jìn)步的速度。雖然他們的方法與我們有所不同,但這正顯示了AI研究領(lǐng)域可以探索的多樣化方向。這不僅是一個(gè)針對IMO的專(zhuān)門(mén)模型,而是一個(gè)融合了新型實(shí)驗性通用技術(shù)的推理型大語(yǔ)言模型。”
布朗的觀(guān)點(diǎn)得到了OpenAI同事們的認可。這表明,谷歌和OpenAI的基礎模型不僅僅是針對數學(xué)問(wèn)題的狹義專(zhuān)家,更具備廣泛的能力,能夠應對多種復雜任務(wù)。
OpenAI選擇自行公布成績(jì),凸顯了在“公司內部面臨挑戰的背景下,急于展現領(lǐng)導力”的巨大壓力。OpenAI首席執行官山姆·奧特曼(Sam Altman)也提到了這一成就的重要性:“當我們剛開(kāi)始OpenAI時(shí),這(指在IMO奪金)一直是一個(gè)夢(mèng)想,但那個(gè)時(shí)候我們并不覺(jué)得它能夠實(shí)現。”此次成功有力地反擊了關(guān)于OpenAI正失去競爭力的言論。
而谷歌的系統則依賴(lài)于其新推出的Gemini Deep Think架構,這是一種增強型推理模式,專(zhuān)門(mén)用于處理復雜問(wèn)題。它融合了谷歌最新的研究技術(shù),包括“并行思維”,這種設置使模型能夠在給出最終答案之前,同時(shí)探索并結合多種可能的解決方案,而不是追求單一的、線(xiàn)性的思維鏈。
為了最大限度地發(fā)揮Deep Think的推理能力,谷歌還引入了最新的強化學(xué)習技術(shù),使其能利用更多的多步驟推理、問(wèn)題解決和定理證明的數據來(lái)進(jìn)行學(xué)習。此外,谷歌為Gemini提供了一個(gè)經(jīng)過(guò)精心篩選的高質(zhì)量數學(xué)問(wèn)題解決方案語(yǔ)料庫,并在其指令中添加了如何高效解決IMO問(wèn)題的通用提示和技巧。
谷歌計劃將這一版本的Deep Think模型提供給一批受信任的測試人員,包括數學(xué)家,之后再向Google AI Ultra訂閱者推出。
AI與數學(xué)的未來(lái)
盡管取得了突破,但AI推理技術(shù)目前仍處于實(shí)驗階段。OpenAI研究員亞歷山大·韋(Alexander Wei)表示:“這一成就攻克了AI領(lǐng)域長(cháng)期以來(lái)的一個(gè)重大挑戰,我很高興地分享OpenAI最新的實(shí)驗性推理型大語(yǔ)言模型已經(jīng)在全球最具聲望的數學(xué)競賽中達到了金牌水平。”
Google DeepMind的高級研究科學(xué)家Thang Luong對未來(lái)充滿(mǎn)信心:“我們非常有信心,很快就能把模型交到我們所信任的測試人員手中,尤其是數學(xué)家,幫助他們解決更復雜的問(wèn)題,之后再推出給更廣泛的用戶(hù)群體。”
Google DeepMind與數學(xué)界的合作正在持續進(jìn)行,但AI為數學(xué)貢獻的潛力仍處于起步階段。通過(guò)讓AI系統能夠進(jìn)行更加靈活和直觀(guān)的推理,谷歌正在一步步接近構建能解決更復雜和高級數學(xué)問(wèn)題的AI。
盡管今年的工作完全基于自然語(yǔ)言的Gemini,谷歌仍在持續推進(jìn)其他AI系統,包括AlphaGeometry和AlphaProof。
谷歌相信,那些結合了自然語(yǔ)言流暢性與嚴格推理的智能體,包括在形式化語(yǔ)言中經(jīng)過(guò)驗證的推理,將成為數學(xué)家、科學(xué)家、工程師和研究人員不可或缺的工具,幫助推動(dòng)人類(lèi)知識的進(jìn)步,并為通用人工智能(AGI)奠定基礎。(小小)