Google Gemini 3 Pro 終極懶人包 : 終於學會拒絕討好,深度推理與 Agent 功能成企業新寵

Google Gemini 3 Pro 發布標誌著 AI 從對話工具進化為可信任代理人。新模型具備深度推理 Deep Think 模式,更學會「拒絕討好」以提供真實洞察。本文深入解析其 Vibe Coding 開發優勢、企業級安全性及 Agent 長期規劃能力,協助決策者評估導入時機。

Google 剛發布的 Gemini 3 Pro,並非單純「效能提升 x%」的例行公告。是次升級的核心,在於 AI 開始具備三個過去被視為「人類專屬」的特質:深度推理、拒絕討好、以及長期規劃。若說 ChatGPT 讓 AI 走進日常對話,Claude 讓 AI 變得更安全可信,那麼 Gemini 3 的目標,就是讓 AI 成為用戶可以「授權決策」的代理人——不只回答問題,而是替用戶完成任務。

這篇文章將拆解三個關鍵轉變:AI 大腦如何變聰明、這個大腦如何變成用戶的助手、以及為何企業開始願意把關鍵決策交給它。

推理能力不再是表面功夫

過去的 AI 模型常被詬病「看似聰明,實則膚淺」——它們擅長模式匹配,卻缺乏真正的推理能力。Gemini 3 Pro 的突破在於 Deep Think 模式,這並非簡單的「多想幾秒」,而是透過多層次思維鏈,讓 AI 能夠像人類專家一樣「先理解問題本質,再逐步拆解」。

具體而言,在被稱為「人類最後考試」的 Humanity’s Last Exam 測試中,Gemini 3 Deep Think 達到 41.0% 準確率(不使用任何工具),而在 ARC-AGI-2 這個測試「適應全新挑戰」能力的基準上,更達到史無前例的 45.1%。這些數字代表 AI 開始能處理「未見過的問題類型」,而非只會背誦答案。

更重要的是,Gemini 3 在 GPQA Diamond(博士級科學知識測試)上拿下 93.8%,在 SimpleQA Verified(事實準確性)上達到 72.1%。這意味著它除了聰明,還能「說得對」。

拒絕阿諛奉承 回應更直接

Google 在技術文件中特別強調一個詞:Reduced Sycophancy(減少諂媚性)。過去 AI 有個致命缺陷就是偏向討好使用者。若用戶問「我覺得這個專案應該這樣做,你覺得呢?」,舊模型往往會順著用戶的預設立場回答,即使方向可能有問題。

Gemini 3 減少這個問題,官方文件這樣描述其風格:

「它的回應聰明、簡潔且直接,用真正洞察取代陳詞濫調和奉承——告訴你需要聽的,而不只是你想聽的。」

這意味著什麼?簡單說,Gemini 3 Pro 不會用冗長的開場白或客套話浪費你的時間。當你問一個技術問題,它會直接切入重點;當你需要分析一個複雜情況,它會提供實質的洞察,而不是模稜兩可的「這要看情況」。這種風格在處理專業工作時特別有價值——你需要的是清晰的分析,而不是禮貌但空洞的回應。

 

可跑一整年沒有任務偏移

AI 要從「聊天機械人」進化成「代理人」,最大障礙不是技能而是穩定性。試想請助理處理一件需要幾星期才能完成的專案,結果他做到一半就忘記目標、開始做其他事,這正是過去 AI Agent 的問題。

Gemini 3 在 Vending-Bench 2 測試中證明其突破。這個測試模擬經營一部自動販賣機一整年,AI 需要持續做出庫存管理、定價調整、供應商選擇等決策。結果顯示 Gemini 3 Pro 在整整一年的模擬中保持一致決策品質,沒有任務偏移,產生的投資回報遠高於其他模型。

這個能力的商業價值在於,用戶可以放心讓它處理「需要數星期甚至數月追蹤」的複雜任務——比如季度預算規劃、客戶支援流程改善、或是持續監控供應鏈風險。

基於這個穩定的長期規劃能力,Google 推出 Gemini Agent 這不是比喻,而是一個會實際執行任務的系統。

Gemini Agent 真正 AI 助理

基於這個穩定的長期規劃能力,Google 推出了 Gemini Agent

給一般大眾的實例:
想像一下這些實際的使用場景。當你的收件匣塞滿郵件時,Gemini Agent 會掃描你的郵件內容,幫你自動分類、標記優先事項,甚至草擬回覆讓你審核後再發送。如果你需要規劃旅行,只要說「幫我預訂下週去紐約的中型 SUV,預算每天 80 美元以下,用我郵件裡的航班資訊」,它就會找到你的行程、比較符合預算的租車選項、準備好預訂連結。

在運動訓練方面,它可以扮演你的生活教練角色。上傳你的匹克球比賽影片,它會仔細分析你的動作、指出可以改進的空間、甚至根據你的程度生成一份完整的訓練計劃。對於珍貴的家族記憶,它也能幫上忙——拍下阿嬤手寫的食譜(可能還是日文或台語),它會辨識、翻譯、整理成可分享的數位食譜集,讓家族的味道可以傳承下去。

用戶始終保持控制權

不同於科幻電影裡「失控的 AI」,Gemini Agent 的設計哲學是「授權但需確認」。在購買商品、發送郵件、預訂服務等關鍵操作前,它都會先呈現計劃讓用戶確認。用戶可以隨時接手、修改、或取消。

這個功能目前僅向美國 Google AI Ultra 訂閱用戶開放(月費約 30 美元,即約港幣 HK$234),但標誌著 AI 產品新方向:從「對話工具」轉向「可信任的代理人」。

 

 

Google Search:搜尋的本質改變

但對大多數人來說,最重要的更新可能不是 Gemini Agent,而是 Google Search 的 AI Mode。這是 Google 第一次在模型發布當天就將新模型整合到搜尋服務中,標誌著搜尋體驗的根本性轉變。

AI Mode 它不是取代傳統搜尋,而是提供一個全新的選項——當你需要處理複雜、多層次的問題時,可以切換到 AI Mode,獲得更深入、更整合的回應。美國的 Google AI Pro 和 Ultra 訂閱用戶現在可以在 AI Mode 中選擇「Thinking」模型,直接使用 Gemini 3 Pro 的推理能力。

Gemini 3 大幅強化了 Google Search 的「查詢展開」技術。過去這個技術會同時發起多個相關搜尋來收集資訊,現在因為 Gemini 3 更智慧地理解你的意圖,它能找到以前可能遺漏的相關內容。更重要的是,在未來幾週,Google 會啟用「自動模型選擇」功能,系統會智慧判斷問題的複雜度,自動將最困難的問題路由到 Gemini 3,而對簡單查詢繼續使用更快的模型。這種動態調度能在保證品質的同時優化速度。

生成式介面在搜尋中的應用

更革命性的是 Generative UI(生成式介面)在 Google Search 中的應用。這不是預先設計好的模板,而是 Gemini 3 根據你的問題,即時創建的客製化視覺體驗。
Gemini 3 會分析你的問題,判斷什麼樣的呈現方式最有幫助,然後建構一個包含圖片、表格、網格等視覺元素的客製化回應。當它偵測到互動式工具會更有助於理解時,就會使用其生成能力即時編寫一個客製化的模擬程式或工具,直接嵌入搜尋結果中。

舉個具體例子,當你搜尋「三體問題的物理原理」時,系統不只給你一篇文章連結,而是即時生成一個互動模擬器。你可以調整三個天體的質量、初始位置和速度,親眼看到它們的軌道如何陷入不可預測的混沌。如果你在研究房貸方案,搜尋「固定利率和浮動利率哪個划算」,Gemini 3 會為你即時建立一個互動式貸款計算器。你可以直接在搜尋結果中調整利率、貸款年限、本金等參數,實時比較兩種方案的長期成本。

所有這些動態生成的介面,都會附帶明顯的連結指向網路上的權威來源。Google 的設計哲學是「幫你更快找到答案,而不是取代原始內容」。這對內容創作者和網站經營者來說是個重要的承諾——AI 不是要消滅網站流量,而是要幫助使用者更有效地找到他們需要的資訊。

用自然語言就能生成完整應用

對開發者而言,Gemini 3 Pro 的殺手級應用是 Vibe Coding——一種「只需要描述想要什麼,它就幫你寫出來」的開發模式。

這並非新概念,但 Gemini 3 品質已達「生產可用」等級。在 WebDev Arena 排行榜上,它以 1487 Elo 拿下第一,而在 Terminal-Bench 2.0(測試 AI 在終端機環境操作的能力)上達到 54.2%,遠超其他模型。

真實案例:金門大橋 3D 模擬 一位開發者在 Gemini CLI 中輸入一段提示:

 

「建立一個逼真的 3D 體素風格金門大橋模擬。要有:

日夜光照變化(滑桿控制 0-24 小時)

體積霧效(粒子飄移)

水面著色器(波浪、鏡面反射)

最多 400 輛車的即時交通(用 InstancedMesh)

夜間模式會啟動城市燈光、車頭燈

技術限制:只能用單一 HTML 檔案,透過 CDN 引入 three.js,不能用 Vite/Webpack」

 

結果 Gemini 3 一次性輸出完整 HTML 檔案,可直接在瀏覽器中運行。這並非簡單「生成一個按鈕」,而是涉及 3D 圖形、物理引擎、效能改善的複雜應用,而這只用了一段自然語言提示。

思維簽名讓 AI 在多輪對話中不會「失憶」

真正讓 Gemini 3 對開發者友善的,是一個被大多數報導忽略的技術:Thought Signatures(思維簽名)。

問題背景:

當跟 AI 進行多輪對話時(比如「先幫我寫一個登入功能」→「現在加上雙重認證」→「再整合 Google OAuth」),傳統模型常會「忘記」前幾輪思考脈絡,導致後面的程式碼與前面不一致。

Gemini 3 的解決方案:

每次回應時,它會生成一個加密的思維簽名,紀錄「我為什麼這樣設計」、「有哪些權衡考量」。在下一輪對話時,這個簽名會被自動帶入,讓模型能「記得自己當初的邏輯」。

 

對開發者來說,這個機制帶來三個實質的價值。首先 Firebase AI Logic 會自動處理這些簽名,你完全不需要手動管理這些複雜的加密資料,就像你不需要手動管理 HTTPS 的憑證一樣。其次,你可以直接在客戶端——無論是手機 App 還是網頁——安全地調用 Gemini 3,不需要架設伺服器來管理 API 金鑰,這大幅降低了開發和維運的複雜度。最重要的是,當你進行多輪迭代優化程式碼時,AI 不會「跑偏」,它會保持一致的設計哲學,因為它記得自己當初做決策時的考量。

Firebase 團隊也意識到開發者需要更細緻的控制。很快你將能夠透過 thinkingConfig 參數來配置「思考層級」(Thinking levels),這讓你能直觀地控制模型該花多少力氣思考。對於簡單的任務(比如格式轉換、基本的程式碼補全),你可以設定較低的思考層級來換取更快的回應速度和更低的成本。對於複雜的架構設計或演算法優化,你可以提高思考層級,讓模型投入更多的推理資源。這種彈性讓你能在速度、成本和品質之間找到最適合每個場景的平衡點。目前你仍可以使用「思考預算」(thinking budgets)來達到類似的效果,但思考層級提供了更直觀、更容易理解的介面。

這個功能目前已經整合在 Firebase AI Logic SDK 中,支援 Android、iOS、Flutter、Web 和 Unity 五大平台,幾乎涵蓋了所有主流的應用開發環境。

 

Gemini CLI:終端機裡的 AI 助手

對習慣命令列的開發者,Gemini CLI 讓大家可以用自然語言操作複雜 Shell 指令。

實例:

  • 「找出導致這個 Bug 的那次 Git Commit」→ 它會協助執行 git bisect,自動化整個二分搜尋過程。
  • 「偵錯我的 Cloud Run 服務為什麼慢」→ 它會連接 Cloud Run、Snyk 安全掃描器,找出根本原因、提出修復建議、甚至協助部署修復。
  • 要啟用 Gemini 3 Pro,只需: npm install -g @google/gemini-cli@latest /settings # 將 Preview features 設為 true

 

企業為什麼敢用 穩定性與真實性的證明

真實案例:企業客戶的回饋

GitHub:35% 準確率提升

「在 VS Code 早期測試中,Gemini 3 Pro 在解決軟件工程挑戰方面的準確率比 Gemini 2.5 Pro 高出 35%。」

JetBrains:50% 以上任務完成率提升

「我們用最嚴苛任務測試它——從生成數千行前端程式碼,到模擬整個作業系統介面。Gemini 3 Pro 在解決的基準任務數量上比 2.5 Pro 提升了 50% 以上。」

Shopify:可靠的工具調用

「Gemini 3 是智能 AI 重大飛躍。它能以最少提示調整遵循複雜指令,並可靠地呼叫工具——這對建構真正有用的助理至關重要。」

Box:轉變機構知識的應用方式

「Gemini 3 Pro 帶來全新水準的多模態理解、規劃和工具呼叫能力,讓 Box AI 能夠轉變組織如何詮釋和應用機構知識。」

 

安全性:史上最全面的評估

Gemini 3 是 Google 迄今最安全的模型,經過了最全面的安全評估。在內部測試方面,它涵蓋了 Google 內部 Frontier Safety Framework 的所有關鍵領域,這個框架是 Google 專門為前沿 AI 模型設計的安全標準。外部評估部分,Google 與世界領先的專家合作,包括英國的 AISI(AI Safety Institute)等權威機構,確保評估的獨立性和專業性。此外,還由 Apollo、Vaultis、Dreadnode 等業界知名的安全專家進行獨立審查,這些第三方的評估結果為模型的安全性提供了額外的保證。

在關鍵改進方面,首先是我們前面提到的「減少諂媚性」特質,是安全機制的一部分。一個會為了討好而同意錯誤預設的 AI,在安全性上是有風險的。其次是提高了抗提示注入的能力,使得模型更難被精心設計的惡意提示「洗腦」或誤導。最後是改善了網路攻擊防護,能夠更安全地處理來自外部的各種輸入,降低被利用來執行有害行為的風險。

給不同族群的使用建議

給一般大眾 從今天開始用 Gemini 3

如果你是第一次接觸 Gemini 3,最值得嘗試的是 Gemini App 全新的「My Stuff」資料夾功能。過去使用 AI 生成圖片、影片或報告後,這些內容常常散落各處難以管理,現在它們都會自動整理在這個專屬空間裡。當你問任何問題時,特別留意它的「視覺版面」和「動態檢視」功能——這不是固定的模板,而是 AI 根據你的問題即時設計的互動介面。此外,購物體驗也有顯著提升,系統會直接從 Google 購物圖譜引入超過 500 億個產品列表,讓你能即時比價。
在訂閱方案的選擇上,免費版本已經可以使用基本功能,但會有速率限制。如果你需要更高的使用額度和 Deep Search 功能,可以考慮每月約 20 美元的 Google AI Pro 方案。而最高階的 Google AI Ultra 方案(每月約 30 美元)則開放了 Gemini Agent 和 Deep Think 模式,適合需要處理複雜任務的使用者。實際操作上非常簡單,只要在 Gemini App 或 Google Search 的 AI Mode 中,從模型下拉選單選擇「Thinking」,就能立即使用 Gemini 3 Pro。

給開發者 三個改變工作流程的整合點

對開發者來說,有三個整合點值得深入探索。第一個是 Google AI Studio,這是免費試用 Gemini 3 Pro 的最佳起點。雖然有速率限制,但對於實驗和原型開發來說已經足夠。你可以在這裡測試各種提示、調整參數,熟悉模型的特性後再決定是否進入生產環境。

第二個重點是 Firebase AI Logic,這個服務讓你可以在手機或網頁應用程式中直接調用 Gemini 3,完全不需要設定後端伺服器。更重要的是,它會自動處理「思維簽名」功能,確保 AI 在多輪對話中不會失去邏輯脈絡。這對於需要持續迭代、優化程式碼的場景特別有價值,因為 AI 會記住它當初的設計考量,不會在後續的修改中「跑偏」。

第三個是 Gemini CLI,讓你可以在終端機環境中用自然語言操作複雜指令。如果你訂閱 Ultra 方案或使用付費 API 金鑰,就能解除速率限制,充分發揮這個工具的潛力。在 API 定價方面,目前的預覽版本對於 200k tokens 以下的提示,輸入成本是每百萬 tokens 兩美元,輸出成本則是每百萬 tokens 十二美元。值得注意的是輸出成本是輸入的六倍,因此在設計應用時需要仔細評估成本結構。

關於第三方整合,Gemini 3 Pro 已經被整合到多個主流開發工具中。在 IDE 方面,Cursor、GitHub Copilot、JetBrains 和 Android Studio 都已經支援。開發平台如 Replit 和 Manus 也能直接使用。Google 還推出了全新的開發工具 Antigravity,提供免費下載,支援 MacOS、Windows 和 Linux 三大平台,讓開發者能在本地環境中充分利用 Gemini 3 的能力。

 

給企業決策者 三個必須回答的關鍵問題

在評估是否導入 Gemini 3 之前,企業決策者需要先誠實回答三個問題。

第一個問題是:

你的決策流程能承受「被質疑」嗎?Gemini 3 最大的特點之一是「減少諂媚」,它會直接指出你想法中的盲點,而不是順著你的預設立場說好話。如果你的組織文化鼓勵挑戰假設、直言不諱,這個特質會是巨大的資產。但如果你的團隊習慣「老闆說什麼就是什麼」的文化,可能需要先進行文化調整,否則這個 AI 反而會造成內部摩擦。

第二個問題是:

你們有長期、重複性的複雜任務嗎?如果有,比如季度預算規劃、客戶支援流程優化、供應鏈風險監控等需要持續數週甚至數月追蹤的工作,Gemini 3 的長期規劃能力就特別值得投資。Vending-Bench 2 的測試結果證明,它可以在整整一年的模擬中保持一致的決策品質,不會中途「忘記」目標或偏移任務。這種穩定性是過去 AI 系統難以企及的。

第三個問題是:

你們的資料治理準備好了嗎?Gemini 3 可以透過 Vertex AI 存取,享有企業級的安全性和資料治理功能。但這需要你們有明確的資料使用政策,IT 管理員也必須透過 Google Cloud Console 啟用預覽模型的存取權限。對於使用 Gemini Code Assist Enterprise 授權的客戶,可以優先取得存取權,但其他企業可能需要註冊候補名單。如果想要開始試點專案,可以透過 Gemini Enterprise 或 Vertex AI 平台進行,相關的技術文件和設定指南都可以在 Google Cloud 官方網站上找到。

總結 : 不再是單純速度的升級

過去幾年,我們看過太多「革命性 AI」的宣稱,但 Gemini 3 的發布確實有幾個不同之處值得注意。

最明顯的是,這是 Google 第一次在模型發布當天就將它整合到主力產品中。過去 Google 的慣例是先發布模型,幾個月後才逐步整合到 Search、Gmail 等產品。但這次 Gemini 3 在發布當天就上線到 Google Search 的 AI Mode,這代表 Google 對這個模型的穩定性有足夠的信心,願意讓數十億使用者立即接觸。

第二個不同之處在於,這次發布明確強調「性格調整」而非單純的「能力提升」。技術文件中有大量篇幅在討論「Reduced Sycophancy」(減少諂媚),而不是只炫耀基準測試分數。這顯示 Google 已經意識到,AI 要成為可信任的代理人,品格比智商更重要。一個會順著你說話的 AI,再聰明也不值得信賴。

第三個值得注意的是,有大型企業公開背書具體的準確率提升。GitHub 說準確率提升了 35%,JetBrains 說解決任務數量提升了 50% 以上——這些公司不是 Google 的子公司,它們的評價比官方宣傳更有說服力。當獨立的第三方願意公開背書時,通常代表產品確實有實質進步。