本文來源:數(shù)字生命卡茲克,原文標(biāo)題:《OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙》
o3的能力,對現(xiàn)在所有模型,幾乎都直接是降維打擊。
今天凌晨2點,OpenAI的12天直播,終于來到了最終章。
奧特曼,也在一片圣誕的氣息中終于回歸。
為大家?guī)砹俗詈蟮膲狠S大戲。
OpenAI o3。
又一次超群,又一次把模型的能力,推到了新的高度。
也向全世界證明了,OpenAI,依然在鐵王座上牢不可摧。
我也想起了OpenAI研究員在發(fā)布o(jì)1之前的那句話:
“我們通往AGI的路上,已經(jīng)沒有任何阻礙了”
之所以O(shè)penAI直接發(fā)布o(jì)3沒有o2,原因也挺簡單的。
因為跟英國電信服務(wù)提供商O2可能存在版權(quán)或商標(biāo)沖突,所以直接跳過了。。。
直接到o3。
而OpenAI直播一完,X上基本就沸騰了。
o3的能力,對現(xiàn)在所有模型,幾乎都直接是降維打擊。
看下o3的能力吧。
一些粗的評測集簡單過一下。
左邊的是軟件工程考試(SWE-Bench Verified),這就像是一個考寫程序的考試,比如你寫一個軟件要它快速、準(zhǔn)確,還不能有 bug(小錯誤)。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼。
o3 的成績:71.7%,比o1還強了不少。
右邊的那個基準(zhǔn)比較猛,Codeforces,一個全球著名的編碼競賽平臺。
o3的得分是2727,這個得分,相當(dāng)于整個榜單的第175名,已經(jīng)超越了99.99%的人類了。
o1的代碼能力已經(jīng)強到爆炸了,而o3,又向AGI的山頂,前進(jìn)了一大步。
數(shù)學(xué)競賽AIEM 2024和博士級科學(xué)考試GPQA Diamond。
AIEM 2024接近滿分,如果我沒記錯的話,這應(yīng)該也是第一次AI能達(dá)到有AIEM接近滿分的水平。
博士級科學(xué)考試有進(jìn)化,但沒數(shù)學(xué)和編程進(jìn)化的這么猛。
接下來的這個數(shù)學(xué)基準(zhǔn)比較有趣一點。
FrontierMath,Epoch AI 開發(fā)的一個數(shù)學(xué)基準(zhǔn)測試,由60多位頂尖數(shù)學(xué)家的合作開發(fā),旨在評估人工智能在高級數(shù)學(xué)推理方面的能力。
而且為了避免數(shù)據(jù)污染,所有的題目都是原創(chuàng)的且從來沒有發(fā)布過的新題目。
之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候,成功功率不足2%,與其他傳統(tǒng)數(shù)學(xué)基準(zhǔn)(如 GSM-8K 和 MATH)中超過90%的成功率形成鮮明對比。
而這一次,o3直接達(dá)到了25.2。
當(dāng)各大其他模型都還在卷傳統(tǒng)數(shù)學(xué)基準(zhǔn)的時候,o3真的已經(jīng)進(jìn)入了另一個世界了。。。
就像大家還在大斗師階段互相卷,你是五星大斗師,我是八星大斗師。
兩者爭論不休,正準(zhǔn)備要比試比試,忽然就看到一個斗宗強者踏空而行,留下一地的臥槽。
這還比個鬼。
然后,就是我覺得,整個基準(zhǔn)里,最有趣的一個基準(zhǔn)了:
ARC-AGI。
先說說這是個啥玩意。
ARC-AGI于2019年首次提出,旨在通過一系列抽象和推理任務(wù)來測試AI系統(tǒng)的能力。
主要是因為傳統(tǒng)的技能測量方法并不能有效代表智能,因為它們往往依賴于先前知識和經(jīng)驗,而真正的智能應(yīng)體現(xiàn)在廣泛的適應(yīng)能力和通用性上。
所以,ARC-AGI誕生了,里面的這些任務(wù)要求AI識別模式并解決新問題,每個任務(wù)由輸入輸出示例組成。這些任務(wù)以網(wǎng)格形式呈現(xiàn),每個方塊可以是十種顏色中的一種,網(wǎng)格的大小可以從1x1到30x30不等。參與者需要根據(jù)給定的輸入生成正確的輸出,測試其推理和抽象能力。
可以簡單的理解成,找規(guī)律。
大概就是這樣的。
非常的難且抽象。
過去幾代模型的評分在此:
* GPT-2 (2019): 0%
* GPT-3 (2020): 0%
* GPT-4 (2023): 2%
* GPT-4o (2024): 5%
* o1-preview (2024): 21%
* o1 (2024): 32%
* o1 Pro (2024): ~50%
但是今天,o3的分?jǐn)?shù),達(dá)到了恐怖的87.5%。
從0%到5%,整整花了5年的時間,而如今,從5%到87.5%,僅僅只花了半年。
而對應(yīng)的,人類的閾值分?jǐn)?shù),是85%。
我們通往AGI的路上,已經(jīng)沒有任何阻礙了。
不過o3強歸強,但是又是一個期貨,OpenAI目前只對紅隊開放,如果是巨佬的話,可以去申請試試。
目前不知道o3什么時候放出,但是OpenAI又基于o3,訓(xùn)了3個小尺寸的o3模型。
目前o3-mimi,預(yù)估在1月底可以對外開放,但是感覺到時候,肯定又是pro會員專屬的模型了。
我越來越期待,2025年AI行業(yè)的進(jìn)化了。
推理模型、Agent、AI硬件、世界模型。
每一個都是比這個中間態(tài)的2024,都更讓人興奮的東西。
2025,必是AI行業(yè),真正的星辰大海。
我們也在最后,回顧一下這12天的直播吧。
Day 1:滿血o1上線,ChatGPT Pro會員上線,o1 pro推出。
Day 2:基于o1的強化微調(diào)。
Day 3:Sora正式發(fā)布。
Day 4:ChatGPT Canvas全員開放以及小功能更新。
Day 5:給蘋果站臺,宣傳蘋果全系接入GPT。
Day 6:4o的實時視頻理解上線。
Day 7:ChatGPT發(fā)布新建文件夾“項目”功能。
Day 8:ChatGPT Search全量開放,搜索體驗大幅優(yōu)化。
Day 9:發(fā)布了o1的API、更新了實時語音的API、發(fā)布了偏好微調(diào)能力(PFT)。
Day 10:物理意義上的可以給ChatGPT打電話了。
Day 11:炒冷飯,ChatGPT 桌面版能讀到別的應(yīng)用。
Day 12:OpenAI o3正式發(fā)布。
這12天,稍微有點驚喜的日子大概只有2、3天,其他都是垃圾時間。
還好,今天的大貨,補上了之前的陰霾。
最后,還是忍不住感嘆一聲。
這12天,像一場漫長的馬拉松。
我們經(jīng)歷了深夜中數(shù)不勝數(shù)的垃圾時間。
卻也迎來了最后的高光時刻。
這感覺。
還挺AI的。
風(fēng)險提示及免責(zé)條款
市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。
尹錫悅即將下獄,韓國“新總統(tǒng)”已經(jīng)有了人選,要對中國說句感謝
事關(guān)數(shù)字澳門元,澳門金融管理局正式發(fā)布!
AI年末“狂歡”!OpenAI、谷歌、Meta、李飛飛發(fā)布重磅產(chǎn)品
澳門特馬資料今晚開什么今冬首個暴雪預(yù)警發(fā)布,經(jīng)典解釋落實_Android256.184
澳門必中一碼內(nèi)部公開發(fā)布,效率資料解釋落實_HD48.32.12
澳門必中一碼內(nèi)部公開發(fā)布,準(zhǔn)確資料解釋落實_win305.210
背后就是大馬士革!敘利亞巴沙爾政府已經(jīng)命懸一線?
突發(fā)!北約正式“宣戰(zhàn)”?俄首個摧毀目標(biāo)浮現(xiàn),中方兩個“不”擺明態(tài)度