
GPT-o3 推出後,在許多評測上都有重大的突破。然而,或許是這一年多來 AI 的進展太快,大家都有些麻木。起先我們也沒特別關注,直到看見某個指標——FrontierMath 25% 的問題被解決了!?
等等,這可是其他大型語言模型只解出不到2%的超難題庫。當代最傑出的數學家之一,陶哲軒(Terence Tao)在2024年11月時還下了評論:
「這些問題極具挑戰性……我認為它們至少在未來幾年內都會對人工智慧構成阻礙。」
數學是 AI 的最後堡壘?
在大型語言模型的測試中,數學常常被拿來討論。某些人甚至認為它是人工智慧難以突破的最後領域。主要有兩大原因:
- 數學需要高度的抽象思維和嚴密的邏輯推理能力。
- 最尖端的數學領域可供 AI 學習的訓練數據非常有限。
因此,數學對目前的語言模型來說是一個極具挑戰性的領域。GPT3剛公佈時就展現驚人的文字撰寫能力,但數學表現卻不如預期。後來陸續有人拿最新的模型去考試,數學也往往是進步最慢,考最差的一個科目。
從國小數學到 FrontierMath:AI 如何學習?
早期 AI 主要能解國小數學題,例如 GSM-8K 題庫。隨著技術進步,人們設計了更難的題庫,如 Omni-Math,甚至是最新的 FrontierMath,這是目前最具挑戰性的數學測試集。
FrontierMath 收錄的數學問題範圍涵蓋 數論、組合學、代數幾何、群論、拓撲學等多元領域。不僅有挑戰性的競賽題,還有直接來自當前數學家正在面對的研究問題。更重要的是,所有問題都是全新且未發表的。可以確保模型無法利用其訓練數據中的類似問題來獲得正確答案。
許多數學家對FrontierMath 的評價非常高,包括了前面提到的陶哲軒。他就認為FrontierMath 中的題目「極具挑戰」,即使是該領域的數學家,也需要花費大量的時間和精力才能解決這些問題。
有趣的是,除了專家親自出馬,陶哲軒指出的另一條路就是人機協作:讓相關領域的研究生與AI系統合作。
他評估在某些問題上,與目前的 AI協作解題,會比數學家花上多5倍左右的時間成本。然而,很有可能在未來幾年內,就可以下降到差不多的速度。
然後,進展得好像比陶哲軒想得更快。不用人機協作,GPT-o3獨立解完了25% FrontierMath題目了。
AI能成為數學教育的夥伴嗎?
不過,雖然GPT-o展現出語言模型前所未有的數學解題能力。但這不代表數學之壁要被攻破了。
首先,FrontierMath 的設計目標是評估 AI 模型,因此題庫多是有可自動驗證的問題,例如算出一組答案或可以用軟體驗證。然而,數學研究中很大一部分工作涉及到撰寫證明和開放探索,這些方面是FrontierMath 無法反應的。
其次,雖然現在的FrontierMath一題就算會耗掉專家好幾小時、好幾天的心力。但許多數學研究更是需要數月、甚至數年的持續探索。費馬定理就是一個最好的例子,數學家們世代接力,花了300年才證明。
最後一棒的懷爾斯曾這麼訴說他的心境:
「或許,我能給出關於我研究數學的歷程最貼切的描述,就是進入一棟大房子。當一個人開始探索第一個全黑的房間時,裡頭一片漆黑,他會在家具中邊跌倒邊摸索……六個月後,你會找到開關並且打開燈。」
數學研究與解FrontierMath難題,兩者在「深度」上還是有很大的差異。
最後,FrontierMath的題目有難度分級1-5分。陶哲軒「對人工智慧構成阻礙」的發言,是在看完最難題目後所說的。目前GPT-o3公佈的數據,並沒有講到他們解了哪些難度的題目。
不過合理的猜測,如果只有答對25%,那陶哲軒所看到的那些數學高牆,依然是矗立在GPT面前,等著新一代模型的挑戰。
🚀 聳立在AI面前的數學高牆回被打破嗎?我們拭目以待!
- 🖊️「2025 AI數感盃」熱情徵件中!枯燥的題目也能變成詩
- 數學英雄傳:數學祖沖之父子的曆法革新
- 國小數學與人工智慧:從GPT-o3看數學學習的未來
- 汪汪隊誰最常出任務?
- TIMSS 2023報告:臺灣國小數學成就與教育挑戰