要聞

六年來(lái)首次！OpenAI發(fā)布兩款開放權(quán)重AI推理模型！奧爾特曼稱其為“全球最佳開放模型”

2025-08-06 06:51:46

OpenAI邁出重要一步，推出六年來(lái)首次開放權(quán)重模型GPT-OSS，包括1170億參數(shù)的gpt-oss-120b和210億參數(shù)的gpt-oss-20b，均以Apache 2.0許可證發(fā)布，可免費(fèi)商用。同時(shí)，亞馬遜將提供OpenAI模型。此外，谷歌DeepMind推出Genie 3世界模型，可實(shí)現(xiàn)實(shí)時(shí)交互，為具身智能體提供訓(xùn)練場(chǎng)。

每經(jīng)編輯｜杜宇

OpenAI向開源模型邁出重要一步：六年來(lái)首次推出開放權(quán)重模型。

OpenAI首席執(zhí)行官山姆·奧爾特曼當(dāng)?shù)貢r(shí)間8月5日宣布，公司將在未來(lái)幾天里帶來(lái)許多新東西，其中周二迎來(lái)一項(xiàng)“小而重磅”的更新——預(yù)熱已久的開源模型GPT-OSS。

簡(jiǎn)單而言，OpenAI在8月5日共發(fā)布兩款開放權(quán)重AI推理模型。其中參數(shù)量達(dá)到1170億的gpt-oss-120b能力更強(qiáng)，可以由單個(gè)英偉達(dá)專業(yè)數(shù)據(jù)中心GPU驅(qū)動(dòng)；參數(shù)量210億的gpt-oss-20b模型，則能夠在配備16GB內(nèi)存的消費(fèi)級(jí)筆記本電腦上運(yùn)行。

在今年1月DeepSeek引爆開源AI風(fēng)暴后，奧爾特曼曾認(rèn)錯(cuò)稱OpenAI在開源技術(shù)方面“站在了歷史的錯(cuò)誤一邊”，這正是OpenAI重新推出開源模型的原因。

兩款模型都以寬松的Apache 2.0許可證發(fā)布，企業(yè)在商用前無(wú)需付費(fèi)或獲得許可。

奧爾特曼在社交媒體表示：gpt-oss是一個(gè)重大突破，這是最先進(jìn)的開放權(quán)重推理模型，具有與o4-mini相當(dāng)?shù)膹?qiáng)大現(xiàn)實(shí)世界性能，可以在你自己的電腦（或手機(jī)的較小版本）上本地運(yùn)行。我們相信這是世界上最好、最實(shí)用的開放模型。

同時(shí)，亞馬遜宣布將首次向客戶提供OpenAI的模型，計(jì)劃在其Bedrock和SageMaker平臺(tái)上提供OpenAI的開放AI權(quán)重新模型。這是云計(jì)算巨頭亞馬遜首次提供OpenAI的產(chǎn)品。

gpt-oss-20b和120b的發(fā)布標(biāo)志著OpenAI戰(zhàn)略轉(zhuǎn)向的重要節(jié)點(diǎn)，此前該公司多次推遲開放權(quán)重模型發(fā)布，并進(jìn)行了廣泛的安全測(cè)試和評(píng)估，以確保模型不被惡意利用。

OpenAI介紹，兩款gpt-oss模型采用了其最先進(jìn)的預(yù)訓(xùn)練和后訓(xùn)練技術(shù)，特別注重推理、效率和跨部署環(huán)境的實(shí)用性。它們都是使用專家混合（MoE）架構(gòu)的Transformer，以減少處理輸入所需的活躍參數(shù)數(shù)量。

gpt-oss-120b每個(gè)token激活5.1億參數(shù)，總參數(shù)量為1170億；gpt-oss-20b激活3.6B參數(shù)，總參數(shù)量為210億。模型使用交替的密集和局部帶狀稀疏注意力模式，支持高達(dá)128k的上下文長(zhǎng)度。

OpenAI稱gpt-oss-20b是一款中型開放模型，gpt-oss-120b則是可在“大多數(shù)臺(tái)式機(jī)和筆記本電腦”上運(yùn)行的大型開放模型。

OpenAI表示，較小的模型至少需要16GB顯存或統(tǒng)一內(nèi)存才能發(fā)揮最佳性能，并且“非常適合高端消費(fèi)級(jí)GPU和搭載蘋果芯片的Mac電腦”。較大的全尺寸模型則需要至少60GB顯存或統(tǒng)一內(nèi)存。

在性能評(píng)估方面，OpenAI披露，gpt-oss-120b在核心推理基準(zhǔn)測(cè)試中接近OpenAI o4-mini的表現(xiàn)。較小的gpt-oss-20b模型在相同評(píng)估中達(dá)到或超過(guò)OpenAI o3-mini的性能。

gpt-oss-120b在競(jìng)賽編碼（Codeforces）、通用問(wèn)題求解（MMLU和HLE）以及工具調(diào)用（TauBench）方面均優(yōu)于OpenAI o3?mini，并匹敵甚至超越了OpenAI o4-mini。它在健康相關(guān)查詢（HealthBench?）和競(jìng)賽數(shù)學(xué)（AIME 2024和2025）方面的表現(xiàn)甚至超過(guò)o4-mini。

即使規(guī)模較小，gpt-oss-20b在上述同類的評(píng)估中也匹敵甚至超越了OpenAI o3?mini，甚至在競(jìng)賽數(shù)學(xué)和健康方面也超越了后者。

值得注意的是，相較o3和o4-mini模型，兩款開放模型也會(huì)出現(xiàn)更多的幻覺(jué)。OpenAI解釋稱，由于較小的模型擁有的世界知識(shí)比大型前沿模型少，所以更容易產(chǎn)生幻覺(jué)也在意料之中。在OpenAI內(nèi)部用于衡量模型對(duì)人物知識(shí)準(zhǔn)確性的PersonQA基準(zhǔn)測(cè)試中，gpt-oss-120b和gpt-oss-20b分別對(duì)49%和53%的問(wèn)題產(chǎn)生幻覺(jué)，達(dá)到o1模型的3倍多，也高于o4-mini模型的36%。

順便一提，作為毫無(wú)驚喜的預(yù)告，奧爾特曼同時(shí)強(qiáng)調(diào)本周晚些時(shí)候會(huì)有一項(xiàng)“重大更新”。鑒于公司這段日子不斷吊業(yè)界胃口的舉動(dòng)，市場(chǎng)普遍預(yù)期OpenAI下一個(gè)重磅更新將是推出GPT-5。

OpenAI對(duì)開放權(quán)重模型的安全性給予了特別關(guān)注，因?yàn)橐坏┌l(fā)布，對(duì)手可能對(duì)模型進(jìn)行惡意微調(diào)。該公司在預(yù)訓(xùn)練期間過(guò)濾了與化學(xué)、生物、放射性和核（CBRN）相關(guān)的有害數(shù)據(jù)。

為直接評(píng)估風(fēng)險(xiǎn)，OpenAI對(duì)模型進(jìn)行了專門的生物學(xué)和網(wǎng)絡(luò)安全數(shù)據(jù)微調(diào)，創(chuàng)建了攻擊者可能制作的特定領(lǐng)域非拒絕版本。經(jīng)過(guò)內(nèi)部和外部測(cè)試，這些惡意微調(diào)的模型無(wú)法達(dá)到其準(zhǔn)備框架中的"高能力"閾值。

OpenAI此次發(fā)布開放權(quán)重模型很大程度上受到市場(chǎng)競(jìng)爭(zhēng)壓力驅(qū)動(dòng)。OpenAI總裁Greg Brockman在本周二的記者會(huì)上表示："看到生態(tài)系統(tǒng)的發(fā)展令人興奮，我們很高興能為此做出貢獻(xiàn)，真正推動(dòng)前沿發(fā)展，然后看看會(huì)發(fā)生什么。"

OpenAI與英偉達(dá)、AMD、Cerebras和Groq等芯片制造商合作，確保模型在各種芯片上良好運(yùn)行。英偉達(dá)CEO黃仁勛在聲明中稱：OpenAI向世界展示了在英偉達(dá)AI上可以構(gòu)建什么——現(xiàn)在他們正在推進(jìn)開源軟件的創(chuàng)新。

圖片來(lái)源：視覺(jué)中國(guó)

值得注意的是，谷歌 DeepMind 8月4日宣布推出第三代通用的世界模型 Genie 3 ，可以生成前所未有的多樣化交互式環(huán)境，給出文本提示，Genie 3 可以生成動(dòng)態(tài)世界，可以以每秒 24 幀的速度實(shí)時(shí)導(dǎo)航，并以 720p 的分辨率保持幾分鐘的一致性。

DeepMind 在模擬環(huán)境領(lǐng)域已有十余年的深厚積累。從訓(xùn)練能玩轉(zhuǎn)即時(shí)戰(zhàn)略游戲的 AI，到為機(jī)器人開發(fā)開放式學(xué)習(xí)環(huán)境，這些研究都指向了一個(gè)共同的目標(biāo)：構(gòu)建強(qiáng)大的世界模型。

與前代模型（如 Genie 1/2）和視頻生成模型（如 Veo 2，Veo 3對(duì)直覺(jué)物理學(xué)的深刻理解）相比，Genie 3 是第一個(gè)允許實(shí)時(shí)交互的世界模型，同時(shí)與 Genie 2 相比，其一致性和真實(shí)感也得到了提升。

Genie 3的終極目標(biāo)之一是為具身智能體（Embodied Agent）提供一個(gè)無(wú)限豐富的訓(xùn)練場(chǎng)。DeepMind已將其與通用智能體SIMA進(jìn)行結(jié)合測(cè)試。研究人員可以為SIMA設(shè)定一個(gè)目標(biāo)（如在面包房里找到工業(yè)攪拌機(jī)），SIMA則通過(guò)向Genie 3發(fā)送導(dǎo)航指令來(lái)嘗試完成任務(wù)。Genie 3像一個(gè)真正的世界一樣，根據(jù)SIMA的行為實(shí)時(shí)反饋結(jié)果，從而讓智能體在海量的what if場(chǎng)景中學(xué)習(xí)和成長(zhǎng)。

每日經(jīng)濟(jì)新聞綜合公開資料

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

OpenAI發(fā)布低成本開放權(quán) 重語(yǔ)言模型

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

8月6日每經(jīng)早參

相關(guān)文章