Google 正式推出 Gemini 3:目前最強大的 AI Agentic 與 Vibe Coding 大型語言模型
Google 今日正式發表全新一代大型語言模型 Gemini 3,並同步在 Gemini App、SearchAI 模式、AI Studio、Vertex AI 等多項服務中推出 Gemini 3 Pro。Google 表示,Gemini 3 是目前最強的多模態與推理模型,在科學、數學、視覺理解與長程規劃等多項重要 AI 基準測試上大幅領先前代。除了 Vibe Coding 外,Gemini 3 也是最強的 Agentic 模型,這意味著 AI 可以幫你主動完成任務。
Google 執行長:Gemini 理解力已從文字圖片進化成能「讀空氣」
Google 執行長 Sundar Pichai 指出,自 Gemini 系列推出近兩年以來,AI 產品已觸及全球二十億用戶。每一代 Gemini 都建立在上一代的成果之上,Gemini 1 在原生多模態與長上下文方面帶來突破,能處理更多也更複雜的資訊。Gemini 2 奠定代理 (agentic) 能力,推動推理與思考極限。
而現在,Gemini 3:我們最智慧的一代模型,集結 Gemini 系列所有能力,讓你能把任何想法帶到現實。它在推理方面達到 SOTA (state-of-the-art),能掌握深度與細膩度。無論是捕捉創造性想法中的微妙線索,或拆解層層重疊的艱難問題。
Gemini 3 也能更好理解你的請求背後的上下文與意圖,讓你不用苦想提示就能得到真正需要的答案。令人驚嘆的是,短短兩年內,AI 已從能閱讀文字與圖片,進化到能讀懂場面與情境 (reading the room)。
推理能力突破:Gemini 3 在 LMArena、科學推理與數學測試皆奪冠
Gemini 3 Pro 在最新評測中刷新多項紀錄:
- LMArena 榜首:取得 1501 Elo 分數。
- Humanity’s Last Exam(學術推理):37.5%(無工具)。
- GPQA Diamond(科學推理):91.9%。
- MathArena Apex(高難度數學):23.4%。
- MMMU-Pro:81%
- Video-MMMU:87.6%
- SimpleQA Verified:72.1%(提升事實準確度)
這些結果代表 Gemini 3 Pro 在科學、數學、多模態推理中具備高度可靠性,可處理極為複雜的問題。
Google 同步發布 Gemini 3 Deep Think 推理模式,在 ARC-AGI-2(含程式執行)取得 45.1%,推理能力更上一層。其他亮點還包括:
- Humanity’s Last Exam:41.0%
- GPQA Diamond:93.8%
Gemini 3:更強的學習、執行與規劃能力
Gemini 3 是目前最強的 vibe coding 與代理式編程模型,具體評分包括:
- WebDev Arena:1487 Elo(最高)
- Terminal-Bench 2.0:54.2%(工具操作能力)
- SWE-bench Verified:76.2%(大型程式任務)
它也支援 Google 全新的 Google Antigravity 代理式開發平台,AI 能自主規劃、編寫程式、操作終端機、驗證程式、操控瀏覽器等多步驟任務。Agentic AI 指的是能主動採取行動、規劃多步驟任務、並自主操作工具的 AI 系統。核心概念是:AI 不再只是回答,而是能像助手一樣,主動完成任務。
舉例來說,當我輸入:「幫我抓今日 ETH 價格並更新 Google Sheet。」,Agentic AI 自己去查 API 並更新 Google Sheet。
大型語言模型意味著使用者輸入一樣的內容,可能因模型運算出不同結果而有截然不同的輸出。而 Gemini 3 在 Vending-Bench 2 中可連續一年度保持一致決策,這意味 Gemini 3 能協助你完成:
- 預約本地服務
- 整理 Gmail
- 處理多步驟工作流程
Gemini Agent 今天起向 Google AI Ultra 使用者開放。且 Google 表示,Gemini 3 是目前經過最多安全審查的模型,強化抗「拍馬屁式生成」、防 Prompt Injection 與網路攻擊。Deep Think 模式則將在完成額外安全測試後,提供給 Google AI Ultra 訂閱者。
這篇文章 Google 正式推出 Gemini 3:目前最強大的 AI Agentic 與 Vibe Coding 大型語言模型 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
Chainlink 成為 Injective 的首選 Oracle 解決方案
簡單來說 Injective 已整合 Chainlink,以提供即時市場數據和基礎設施堆疊,從而實現更快的運行速度。 DeFi 發展、代幣化金融產品以及擴大對鏈上應用程式的存取。

Google DeepMind推出Nano Banana Pro,具備進階文字渲染與工作室級視覺編輯功能
簡單來說 Google DeepMind 推出了 Nano Banana Pro 影像生成和編輯模型,提供進階推理、增強的文字渲染、多元素合成等功能。

OpenAI 擴展 ChatGPT 具備群組聊天功能,最多可讓 20 位用戶同時互動。
簡單來說 OpenAI 剛剛針對所有訂閱等級推出了群組聊天功能,允許最多 20 位用戶同時相互協作。 ChatGPT 在同一主題下。

Cysic 為 NOYA 提供更快、更經濟高效的零知識證明
簡單來說 Cysic 正在提供一個全端運算網絡,該網絡能夠為人工智慧驅動的計算產生零知識證明。 Web3 支援大規模、即時分散式工作負載的應用程式。

