要聞

谷歌最強(qiáng)大AI模型Gemini 3來(lái)了！推理能力實(shí)現(xiàn)重大突破！圖像生成、編程與AI搜索全面增強(qiáng)

2025-11-19 06:19:48

當(dāng)?shù)貢r(shí)間11月18日，谷歌發(fā)布迄今最強(qiáng)大AI模型Gemini 3，并在搜索、應(yīng)用及開(kāi)發(fā)者平臺(tái)同步上線，顯示其加快AI商業(yè)化決心。新模型推理能力顯著進(jìn)步，在多個(gè)基準(zhǔn)測(cè)試中領(lǐng)先，還被稱為“最佳編碼模型”。此外，該模型多模態(tài)理解能力強(qiáng)，發(fā)布首日即整合到多個(gè)核心產(chǎn)品中，且安全性更高，經(jīng)歷了谷歌史上最全面安全評(píng)估。

每經(jīng)編輯｜杜宇

當(dāng)?shù)貢r(shí)間11月18日，Alphabet旗下的谷歌正式發(fā)布備受期待的該司迄今最強(qiáng)大人工智能（AI）模型Gemini 3，并于發(fā)布首日立即在谷歌搜索、Gemini應(yīng)用程序App及多個(gè)開(kāi)發(fā)者平臺(tái)同步上線，在多個(gè)盈利產(chǎn)品中投入使用。這是谷歌首次在新模型發(fā)布當(dāng)天就將其整合到搜索產(chǎn)品中，顯示出公司加快AI技術(shù)商業(yè)化的決心。

Alphabet首席執(zhí)行官桑達(dá)爾·皮查伊當(dāng)天表示，新AI模型將針對(duì)更復(fù)雜的問(wèn)題提供更優(yōu)答案。"用戶只需更少的提示，即可獲得所需結(jié)果。"此外，新模型在編程、應(yīng)用開(kāi)發(fā)與圖像生成方面的能力也大幅增強(qiáng)。

圖片來(lái)源：每經(jīng)記者鄭雨航攝

Gemini 3將被整合進(jìn)Gemini應(yīng)用、谷歌的AI搜索產(chǎn)品AI Mode和AI Overviews，以及其企業(yè)級(jí)產(chǎn)品。該模型將自周二起向部分訂閱用戶開(kāi)放，并將在未來(lái)幾周更大范圍上線。

此次發(fā)布距離谷歌推出Gemini 2.5僅八個(gè)月，距離Gemini 2.0上線也僅11個(gè)月。引爆生成式AI熱潮的OpenAI已于今年8月份發(fā)布GPT-5。

皮查伊寫道：“令人驚嘆的是，僅僅兩年時(shí)間，AI已從單純處理文本和圖像，發(fā)展到能夠讀懂場(chǎng)景。從今天起，Gemini將在谷歌全系產(chǎn)品中全面鋪開(kāi)?！?/p>

據(jù)谷歌披露的數(shù)據(jù)顯示，Gemini應(yīng)用目前月活躍用戶已達(dá)6.5億，而AI Overviews擁有20億月活用戶。OpenAI則在8月表示，ChatGPT周活躍用戶已突破7億。

谷歌高管在新聞發(fā)布會(huì)上強(qiáng)調(diào)，在衡量人工智能模型性能的幾個(gè)熱門行業(yè)排行榜上，Gemini 3處于領(lǐng)先地位。Gemini 3在全球AI模型LMArena排行榜上以1501分的歷史最高分登頂，在衡量通用推理能力的Humanity's Last Exam基準(zhǔn)測(cè)試中獲得37.5%的最高分，超越了此前由GPT-5 Pro保持的31.64%紀(jì)錄。該模型還在數(shù)學(xué)、多模態(tài)理解和事實(shí)準(zhǔn)確性等多個(gè)維度刷新了行業(yè)標(biāo)準(zhǔn)。

谷歌AI研究實(shí)驗(yàn)室DeepMind的CEO Demis Hassabis表示，Gemini 3是"世界上最好的多模態(tài)理解模型"，也是公司迄今最強(qiáng)大的智能體和代碼生成模型。谷歌CEO Sundar Pichai在博客中稱其為"我們最智能的模型"，能夠"將任何想法變?yōu)楝F(xiàn)實(shí)"。

推理能力實(shí)現(xiàn)重大突破

Gemini 3在推理能力上取得了顯著進(jìn)步，在多項(xiàng)學(xué)術(shù)級(jí)基準(zhǔn)測(cè)試中展現(xiàn)出博士水平的表現(xiàn)。該模型在GPQA Diamond測(cè)試中獲得91.9%的高分，在數(shù)學(xué)領(lǐng)域的MathArena Apex基準(zhǔn)測(cè)試中取得23.4%的新成績(jī)，在事實(shí)準(zhǔn)確性方面于SimpleQA Verified測(cè)試中達(dá)到72.1%的得分。

在多模態(tài)推理方面，Gemini 3同樣表現(xiàn)出色，在MMMU-Pro測(cè)試中獲得81%的分?jǐn)?shù)，在Video-MMMU測(cè)試中達(dá)到87.6%。這意味著該模型能夠高度可靠地處理科學(xué)和數(shù)學(xué)等廣泛領(lǐng)域的復(fù)雜問(wèn)題。

谷歌產(chǎn)品負(fù)責(zé)人Tulsee Doshi表示："在Gemini 3身上，我們看到了推理能力的巨大飛躍。它的響應(yīng)深度和細(xì)微程度是我們以前從未見(jiàn)過(guò)的。"

除標(biāo)準(zhǔn)版本外，谷歌還推出了Gemini 3 Deep Think增強(qiáng)推理模式，該模式在Humanity's Last Exam測(cè)試中達(dá)到41.0%的成績(jī)，在GPQA Diamond測(cè)試中獲得93.8%的分?jǐn)?shù)。在ARC-AGI-2測(cè)試中，Deep Think模式創(chuàng)下了45.1%的前所未有成績(jī)，展示了其解決新穎挑戰(zhàn)的能力。谷歌表示，該模式正在接受額外的安全評(píng)估，將在未來(lái)幾周內(nèi)向Google AI Ultra訂閱用戶開(kāi)放。

開(kāi)發(fā)者工具全面升級(jí)

在代碼生成領(lǐng)域，Gemini 3被谷歌稱為"迄今構(gòu)建的最佳vibe coding和智能體編碼模型"。該模型在WebDev Arena排行榜上以1487分的高分登頂，在衡量模型通過(guò)終端操作計(jì)算機(jī)能力的Terminal-Bench 2.0測(cè)試中獲得54.2%的分?jǐn)?shù)，在評(píng)估代碼智能體的SWE-bench Verified基準(zhǔn)測(cè)試中達(dá)到76.2%，遠(yuǎn)超Gemini 2.5 Pro的表現(xiàn)。

開(kāi)發(fā)者可以通過(guò)Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺(tái)訪問(wèn)Gemini 3。

谷歌同時(shí)推出了以智能體為先的全新開(kāi)發(fā)平臺(tái)Google Antigravity，該平臺(tái)利用Gemini 3的高級(jí)推理、工具使用和智能體編碼能力，將AI輔助從開(kāi)發(fā)者工具箱中的一個(gè)工具轉(zhuǎn)變?yōu)橹鲃?dòng)合作伙伴。DeepMind首席技術(shù)官Koray Kavukcuoglu表示："智能體可以在你的編輯器、終端和瀏覽器之間工作，以最佳方式幫助你構(gòu)建應(yīng)用程序。"

多模態(tài)理解與智能體能力并進(jìn)

Gemini 3保留了該系列模型從一開(kāi)始就具備的跨模態(tài)信息綜合能力，能夠無(wú)縫處理文本、圖像、視頻、音頻和代碼等多種模態(tài)信息，并配備100萬(wàn)token的上下文窗口。

Hassabis舉例說(shuō)，如果用戶想學(xué)習(xí)傳統(tǒng)的烹飪，Gemini 3可以破譯并翻譯不同語(yǔ)言的手寫食譜，制作成可分享的家庭食譜書。如果用戶想了解新主題，可以提供學(xué)術(shù)論文、長(zhǎng)視頻講座或教程，Gemini 3能夠生成交互式閃卡、可視化或其他格式的內(nèi)容幫助用戶掌握材料。該模型甚至可以分析用戶匹克球比賽的視頻，識(shí)別改進(jìn)空間并生成整體動(dòng)作改善的訓(xùn)練計(jì)劃。

在智能體能力方面，Gemini 3在測(cè)試長(zhǎng)期規(guī)劃能力的Vending-Bench 2排行榜上位居榜首。該模型能夠在整整一年的模擬運(yùn)營(yíng)中保持一致的工具使用和決策能力，在不偏離任務(wù)的情況下實(shí)現(xiàn)更高回報(bào)。這意味著Gemini 3能夠通過(guò)結(jié)合更深入的推理與改進(jìn)的工具使用，代表用戶導(dǎo)航更復(fù)雜的多步驟工作流程，例如預(yù)訂本地服務(wù)或整理收件箱。

發(fā)布即上線多個(gè)核心產(chǎn)品

谷歌此次采取了積極的產(chǎn)品策略，在Gemini 3發(fā)布首日就將其整合到多個(gè)核心產(chǎn)品中。這是谷歌首次在新模型發(fā)布當(dāng)天就將其應(yīng)用于搜索產(chǎn)品，標(biāo)志著公司AI商業(yè)化戰(zhàn)略的重要轉(zhuǎn)變。

在搜索方面，AI Mode現(xiàn)在使用Gemini 3來(lái)實(shí)現(xiàn)新的生成式用戶界面體驗(yàn)，包括沉浸式視覺(jué)布局、交互式工具和模擬，所有這些都根據(jù)用戶查詢實(shí)時(shí)生成。在Gemini App中，所有用戶都可以使用Gemini 3，Google AI Pro和Ultra訂閱用戶還可以在AI Mode搜索中使用該模型。

在安全性方面，谷歌表示Gemini 3是其迄今最安全的模型，經(jīng)歷了谷歌AI模型史上最全面的安全評(píng)估。該模型顯示出更低的諂媚性、更強(qiáng)的提示注入抵抗力，以及通過(guò)網(wǎng)絡(luò)攻擊濫用的更好防護(hù)。除了根據(jù)其前沿安全框架進(jìn)行的內(nèi)部測(cè)試外，谷歌還與世界領(lǐng)先的領(lǐng)域?qū)＜液献鬟M(jìn)行評(píng)估，向英國(guó)AISI等機(jī)構(gòu)提供早期訪問(wèn)權(quán)限，并獲得了Apollo、Vaultis和Dreadnode等行業(yè)專家的獨(dú)立評(píng)估。

每日經(jīng)濟(jì)新聞綜合公開(kāi)資料

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

11月19日每經(jīng)整點(diǎn)

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

國(guó)產(chǎn)汽車芯片認(rèn)證審查技術(shù)體系實(shí)現(xiàn)突破，零跑、小鵬、吉利汽車發(fā)布三季報(bào) | 汽車早參

相關(guān)文章