您現(xiàn)在的位置：首頁行業(yè)新聞 OpenAI正式發(fā)布o(jì)3：通往AGI的路上，已經(jīng)沒有了任何阻礙

OpenAI正式發(fā)布o(jì)3：通往AGI的路上，已經(jīng)沒有了任何阻礙

承月朗 2024-12-21 行業(yè)新聞 7 次瀏覽 1個評論

　　本文來源：數(shù)字生命卡茲克，原文標(biāo)題：《OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上，已經(jīng)沒有了任何阻礙》

　　o3的能力，對現(xiàn)在所有模型，幾乎都直接是降維打擊。

　　今天凌晨2點，OpenAI的12天直播，終于來到了最終章。

　　奧特曼，也在一片圣誕的氣息中終于回歸。

　　為大家?guī)砹俗詈蟮膲狠S大戲。

　　OpenAI o3。

　　又一次超群，又一次把模型的能力，推到了新的高度。

　　也向全世界證明了，OpenAI，依然在鐵王座上牢不可摧。

　　我也想起了OpenAI研究員在發(fā)布o(jì)1之前的那句話：

　　“我們通往AGI的路上，已經(jīng)沒有任何阻礙了”

　　之所以O(shè)penAI直接發(fā)布o(jì)3沒有o2，原因也挺簡單的。

　　因為跟英國電信服務(wù)提供商O2可能存在版權(quán)或商標(biāo)沖突，所以直接跳過了。。。

　　直接到o3。

　　而OpenAI直播一完，X上基本就沸騰了。

　　o3的能力，對現(xiàn)在所有模型，幾乎都直接是降維打擊。

　　看下o3的能力吧。

　　一些粗的評測集簡單過一下。

　　左邊的是軟件工程考試（SWE-Bench Verified），這就像是一個考寫程序的考試，比如你寫一個軟件要它快速、準(zhǔn)確，還不能有 bug（小錯誤）。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼。

　　o3 的成績：71.7%，比o1還強了不少。

　　右邊的那個基準(zhǔn)比較猛，Codeforces，一個全球著名的編碼競賽平臺。

　　o3的得分是2727，這個得分，相當(dāng)于整個榜單的第175名，已經(jīng)超越了99.99%的人類了。

　　o1的代碼能力已經(jīng)強到爆炸了，而o3，又向AGI的山頂，前進(jìn)了一大步。

　　數(shù)學(xué)競賽AIEM 2024和博士級科學(xué)考試GPQA Diamond。

　　AIEM 2024接近滿分，如果我沒記錯的話，這應(yīng)該也是第一次AI能達(dá)到有AIEM接近滿分的水平。

　　博士級科學(xué)考試有進(jìn)化，但沒數(shù)學(xué)和編程進(jìn)化的這么猛。

　　接下來的這個數(shù)學(xué)基準(zhǔn)比較有趣一點。

　　FrontierMath，Epoch AI 開發(fā)的一個數(shù)學(xué)基準(zhǔn)測試，由60多位頂尖數(shù)學(xué)家的合作開發(fā)，旨在評估人工智能在高級數(shù)學(xué)推理方面的能力。

　　而且為了避免數(shù)據(jù)污染，所有的題目都是原創(chuàng)的且從來沒有發(fā)布過的新題目。

　　之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候，成功功率不足2%，與其他傳統(tǒng)數(shù)學(xué)基準(zhǔn)（如 GSM-8K 和 MATH）中超過90%的成功率形成鮮明對比。

　　而這一次，o3直接達(dá)到了25.2。

　　當(dāng)各大其他模型都還在卷傳統(tǒng)數(shù)學(xué)基準(zhǔn)的時候，o3真的已經(jīng)進(jìn)入了另一個世界了。。。

　　就像大家還在大斗師階段互相卷，你是五星大斗師，我是八星大斗師。

　　兩者爭論不休，正準(zhǔn)備要比試比試，忽然就看到一個斗宗強者踏空而行，留下一地的臥槽。

　　這還比個鬼。

　　然后，就是我覺得，整個基準(zhǔn)里，最有趣的一個基準(zhǔn)了：

　　ARC-AGI。

　　先說說這是個啥玩意。

　　ARC-AGI于2019年首次提出，旨在通過一系列抽象和推理任務(wù)來測試AI系統(tǒng)的能力。

　　主要是因為傳統(tǒng)的技能測量方法并不能有效代表智能，因為它們往往依賴于先前知識和經(jīng)驗，而真正的智能應(yīng)體現(xiàn)在廣泛的適應(yīng)能力和通用性上。

　　所以，ARC-AGI誕生了，里面的這些任務(wù)要求AI識別模式并解決新問題，每個任務(wù)由輸入輸出示例組成。這些任務(wù)以網(wǎng)格形式呈現(xiàn)，每個方塊可以是十種顏色中的一種，網(wǎng)格的大小可以從1x1到30x30不等。參與者需要根據(jù)給定的輸入生成正確的輸出，測試其推理和抽象能力。

　　可以簡單的理解成，找規(guī)律。

　　大概就是這樣的。

　　非常的難且抽象。

　　過去幾代模型的評分在此：

　　* GPT-2 （2019）： 0%

　　* GPT-3 （2020）： 0%

　　* GPT-4 （2023）： 2%

　　* GPT-4o （2024）： 5%

　　* o1-preview （2024）： 21%

　　* o1 （2024）： 32%

　　* o1 Pro （2024）： ~50%

　　但是今天，o3的分?jǐn)?shù)，達(dá)到了恐怖的87.5%。