无码国产精品一区二区高潮久久4,欧美人妻综合激情,99国产精品久久

DoNews > 商業(yè) > 谷歌凌晨突然發(fā)布Gemini 3，提供先進(jìn)推理功能

谷歌凌晨突然發(fā)布Gemini 3，提供先進(jìn)推理功能

楊亮 2025-11-19 07:00:25

579650

分享到

DoNews11月19日消息，今天，谷歌正式發(fā)布 Gemini 3。它不僅是全球領(lǐng)先的多模態(tài)理解模型，更是谷歌迄今為止最強(qiáng)大的智能體（Agentic）和氛圍編程（Vibe Coding）模型，能夠提供更豐富的可視化效果和更深度的交互體驗(yàn)——而這一切都構(gòu)建在最先進(jìn)的推理能力之上。

谷歌于今日推出 Gemini 3 Pro 預(yù)覽版，將其集成到 Google 的全棧產(chǎn)品中。用戶在日常生活中即可使用它來學(xué)習(xí)、構(gòu)建和規(guī)劃一切事務(wù)。

同時(shí)，谷歌還推出了 Gemini 3 Deep Think 模式——這一增強(qiáng)型推理模式將 Gemini 3 的性能再次提升至全新高度。該模式在向 Google AI Ultra 訂閱用戶開放前，會(huì)首先供安全測(cè)試人員試用。

推理能力

憑借領(lǐng)先的推理能力和強(qiáng)大的多模態(tài)功能，Gemini 3 Pro 能夠?qū)⑷魏蝿?chuàng)意變?yōu)楝F(xiàn)實(shí)。在每個(gè)關(guān)鍵的 AI 基準(zhǔn)測(cè)試中，它的性能均顯著超越 2.5 Pro。

它在 LMArena 排行榜上以 1501 的突破性 Elo 評(píng)分高居榜首。其在推理能力上展現(xiàn)出博士水平，在“人類終極考試”中（未使用任何工具的情況下得分率達(dá) 37.5%）及 GPQA Diamond 基準(zhǔn)測(cè)試中（準(zhǔn)確率高達(dá) 91.9%）均獲得最高分。

此外，它在數(shù)學(xué)領(lǐng)域?yàn)榍把啬Ｐ蜆淞⒘巳聵?biāo)桿，在 MathArena Apex 測(cè)試中，以 23.4% 達(dá)到了最先進(jìn)水平（State-of-the-Art）。

除了文本能力，Gemini 3 Pro 在 MMMU-Pro 上取得 81% 的成績，在 Video-MMMU 上達(dá)到 87.6%。同時(shí)，該模型在 SimpleQA Verified 基準(zhǔn)測(cè)試中也斬獲了當(dāng)前最先進(jìn)的 72.1% 得分，展現(xiàn)出其在事實(shí)準(zhǔn)確性方面的顯著進(jìn)步。

這意味著 Gemini 3 Pro 具備高度可靠性，能夠有效解決跨越科學(xué)和數(shù)學(xué)等廣泛主題的復(fù)雜問題。

Gemini 3 在一系列關(guān)鍵 AI 基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)水平

Gemini 3 Pro 為每一次交互帶來了全新的深度和細(xì)致入微的體驗(yàn)。它的回復(fù)智能、簡潔、直接，它會(huì)告訴用戶真正需要了解的信息，而不僅僅是用戶希望聽到的。Gemini 3 Pro 提供了理解信息和自我表達(dá)的全新途徑，無論是通過生成高保真可視化代碼來解析深?yuàn)W的科學(xué)概念，還是進(jìn)行創(chuàng)意頭腦風(fēng)暴，都能為用戶提供強(qiáng)大助力。

深度思考

Gemini 3 的“深度思考模式”（Deep Think mode）進(jìn)一步拓展了智能的邊界，為 Gemini 3 的推理和多模態(tài)理解能力帶來了跨越式提升，能夠助力您攻克更復(fù)雜的難題。

Gemini 3 的“深度思考模式”（Deep Think mode）在一些最具挑戰(zhàn)性的 AI 基準(zhǔn)測(cè)試中表現(xiàn)出色

在測(cè)試中，Gemini 3 Deep Think 在“人類最終考試”（Humanity's Last Exam）中的表現(xiàn)（未使用工具的情況下達(dá)到 41.0%）以及在 GPQA Diamond 測(cè)試中的表現(xiàn)（達(dá)到 93.8%），均超越了 Gemini 3 Pro 已經(jīng)令人印象深刻的成績。

此外，它還在 ARC-AGI -2 基準(zhǔn)測(cè)試中取得了 45.1% 的突破性成績（啟用代碼執(zhí)行），充分展現(xiàn)了其解決新型挑戰(zhàn)的能力。

學(xué)習(xí)一切

Gemini 從設(shè)計(jì)之初，就致力于無縫整合任何主題的跨模態(tài)信息，涵蓋文本、圖像、視頻、音頻和代碼。Gemini 3 以其領(lǐng)先的推理能力、視覺與空間理解能力、多語言性能以及 100 萬令牌的上下文窗口，進(jìn)一步突破了多模態(tài)推理的前沿，幫助您以最適合自己的方式進(jìn)行學(xué)習(xí)。

舉例來說，如果您想學(xué)習(xí)烹飪家族傳統(tǒng)菜肴，Gemini 3 可以解讀并翻譯不同語言的手寫菜譜，整理成一本可分享的家族食譜。又或者，當(dāng)您希望研究一個(gè)新主題時(shí)，只需提供學(xué)術(shù)論文、冗長的視頻講座或教程，它便能生成用于交互式閃卡、可視化圖表或其他形式的代碼，幫助您快速掌握素材。它甚至可以分析您匹克球比賽的視頻，識(shí)別技術(shù)短板，并生成全面提升動(dòng)作技巧的訓(xùn)練計(jì)劃。

為了幫助您更好地理解網(wǎng)絡(luò)信息，Search 中的 AI 模式 (AI Mode) 現(xiàn)已整合 Gemini 3，帶來全新的生成式用戶界面（Generative UI）體驗(yàn)，例如沉浸式視覺布局、交互式工具和模擬，所有內(nèi)容均可根據(jù)您的查詢實(shí)時(shí)生成。

構(gòu)建一切

在 2.5 Pro 成功的基礎(chǔ)上，Gemini 3 兌現(xiàn)了幫助開發(fā)者將創(chuàng)意變?yōu)楝F(xiàn)實(shí)的承諾。它在零樣本生成（Zero-shot Generation）方面表現(xiàn)出色，能夠處理復(fù)雜的提示和指令，從而渲染出更豐富、更具交互性的網(wǎng)頁用戶界面（Web UI）。

Gemini 3 是我們迄今為止構(gòu)建的最出色的氛圍編程（Vibe Coding）和智能體編程（Agentic Coding）模型——讓我們的產(chǎn)品更具自主性，同時(shí)提高開發(fā)者生產(chǎn)力。它在 WebDev Arena 排行榜上以令人矚目的 1487 ELO 名列前茅。

在 Terminal-Bench 2.0 測(cè)試中（一個(gè)測(cè)試模型通過終端操作計(jì)算機(jī)的工具使用能力）上也取得 54.2% 的好成績；同時(shí)，在衡量編程智能體（coding agents）的 SWE-bench Verified（76.2%）基準(zhǔn)測(cè)試中，其表現(xiàn)遠(yuǎn)超 2.5 Pro。

您現(xiàn)在可以通過 Google AI Studio、Vertex AI、Gemini CLI 以及我們?nèi)碌闹悄荏w開發(fā)平臺(tái) Google Antigravity 中使用 Gemini 3 進(jìn)行開發(fā)和構(gòu)建。同時(shí)，它也已在 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平臺(tái)上線。

全新的以智能體為核心的開發(fā)體驗(yàn)

隨著 Gemini 3 模型智能的不斷加速，我們有機(jī)會(huì)重新構(gòu)想整個(gè)開發(fā)者體驗(yàn)（developer experience）。今天，我們正式發(fā)布 Google Antigravity，我們?nèi)碌闹悄荏w開發(fā)平臺(tái)，讓開發(fā)者能夠在更高層次上，以任務(wù)為導(dǎo)向的方式進(jìn)行開發(fā)。

Google Antigravity 利用 Gemini 3 的高級(jí)推理、工具使用和智能編碼能力，將 AI 輔助從開發(fā)者工具包中的工具轉(zhuǎn)變?yōu)橐粋€(gè)活躍的伙伴。盡管 Google Antigravity 的核心仍沿用熟悉的 AI 集成開發(fā)環(huán)境（IDE），但其智能體已被提升到一個(gè)專屬的界面，并被賦予直接訪問編輯器、終端和瀏覽器的權(quán)限。

現(xiàn)在，智能體能夠代表您自主規(guī)劃和執(zhí)行復(fù)雜的端到端軟件任務(wù)，并在此過程中自行驗(yàn)證代碼。

除了 Gemini 3 Pro 之外，Google Antigravity 還深度整合了我們最新的用于瀏覽器控制的 Gemini 2.5 Computer Use 模型，以及我們廣受好評(píng)的圖像編輯模型 Nano Banana（Gemini 2.5 Image）。

規(guī)劃一切

自從 Gemini 2 開啟智能體時(shí)代以來，我們?nèi)〉昧司薮蟮倪M(jìn)展，不僅提升了 Gemini 的編碼智能體（coding agent）能力，還提高了它在更長周期內(nèi)可靠地提前規(guī)劃能力。Gemini 3 在 Vending-Bench 2 排行榜上名列榜首，印證了這一點(diǎn)。

該基準(zhǔn)測(cè)試通過管理模擬自動(dòng)售貨機(jī)業(yè)務(wù)來測(cè)試長周期規(guī)劃能力。Gemini 3 在整整一年的模擬運(yùn)營過程中，保持了工具使用和決策的一致性，在沒有偏離任務(wù)的前提下，帶來了更高的回報(bào)。

Gemini 3 Pro 展示了更優(yōu)秀的長期規(guī)劃能力，與其他前沿模型相比，能夠產(chǎn)生顯著更高的回報(bào)

這意味著 Gemini 3 能更好地幫助您完成日常事務(wù)。憑借更深入的推理能力和更穩(wěn)定的工具使用，Gemini 3 能在您的控制和指導(dǎo)下，幫您完成整個(gè)復(fù)雜、多步驟的工作流程——例如整理 Gmail 收件箱或規(guī)劃完整的旅行行程。

Google AI Ultra 訂閱者今天就可以在 Gemini 應(yīng)用中使用 Gemini Agent 來體驗(yàn)這些智能體能力。我們?cè)谔嵘?Gemini 的智能體能力方面收獲良多，我們也很快會(huì)將這些功能擴(kuò)展到更多 Google 產(chǎn)品，非常期待看到您如何使用它。

負(fù)責(zé)任地構(gòu)建 Gemini 3

Gemini 3 是谷歌迄今為止最安全的模型，并且接受了 Google AI 模型中最全面的一套安全評(píng)估。該模型展現(xiàn)了更低的諂媚性（sycophancy），更高的抗提示注入（prompt injection）能力，并強(qiáng)化了抵御網(wǎng)絡(luò)攻擊濫用的保護(hù)措施。

除了對(duì)谷歌前沿安全框架（Frontier Safety Framework）中關(guān)鍵領(lǐng)域進(jìn)行內(nèi)部測(cè)試外，谷歌還與全球前沿領(lǐng)域的專家合作進(jìn)行了評(píng)估，向英國人工智能安全研究所（UK AISI）等機(jī)構(gòu)提供了早期訪問，并獲得了 Apollo、Vaultis、Dreadnode 等行業(yè)專家的獨(dú)立評(píng)估意見。更多信息，詳見 Gemini 3 模型卡。

下一個(gè)時(shí)代

這僅僅是 Gemini 3 時(shí)代的開始。從今天起， Gemini 3 逐步向用戶開放，供您試用體驗(yàn)：

適用于所有 Gemini app 的用戶，以及在 Search 的 AI Mode 下的 Google AI Pro 和 Ultra 訂閱用戶。

適用于 AI Studio 中 Gemini API 的開發(fā)者，我們?nèi)碌闹悄荏w開發(fā)平臺(tái) Google Antigravity 以及 Gemini CLI。

適用于 Vertex AI 和 Gemini Enterprise 的企業(yè)用戶。

對(duì)于 Gemini 3 “深度思考模式”（Deep Think mode），我們正在投入更多時(shí)間進(jìn)行安全評(píng)估并收集安全測(cè)試人員的反饋，預(yù)計(jì)將在未來幾周內(nèi)向 Google AI Ultra 訂閱用戶開放該功能。

谷歌計(jì)劃很快發(fā)布 Gemini 3 系列中的其他模型，以便您能夠借助 AI 完成更多任務(wù)。我們期待收到您的反饋，也期待看到您使用 Gemini 進(jìn)行學(xué)習(xí)、構(gòu)建和規(guī)劃的成果。