Gemini 3 Flash 視覺升級:Agentic Vision 如何解決 AI 幻覺問題?

Google 發佈 Gemini 3 Flash Agentic Vision,透過程式碼執行實現主動視覺調查,有效解決 AI 幻覺問題。同日 DeepSeek 推出 OCR 2,兩大科技巨頭競逐多模態 AI 市場。



Google 於 2026 年 1 月 26 日發佈 Gemini 3 Flash 的 Agentic Vision 功能,這項技術突破將傳統 AI 的靜態圖像識別轉變為主動式視覺調查流程。與以往模型僅能「一瞥」處理圖像不同,新系統透過程式碼執行能力實現 5-10% 的視覺基準測試品質提升,已開始在 Gemini 應用程式和 API 中向開發者開放。值得留意,中國 DeepSeek 於翌日(1 月 27 日)推出 OCR 2 模型,兩大科技巨頭幾乎同步發佈視覺 AI 突破,顯示全球多模態 AI 能力競賽正進入白熱化階段。

AI 不再「猜測」:視覺推理的範式轉移

傳統前沿 AI 模型如 Gemini 在處理圖像時採取單次靜態掃描方式,當遇到晶片序號或遠處街道標誌等精細細節時,系統被迫依賴機率推測而非確定性分析。Agentic Vision 引入「思考-行動-觀察」循環機制,將視覺理解轉化為多步驟主動調查過程。

模型首先分析用戶查詢和初始圖像制定計劃,接著生成並執行 Python 程式碼進行圖像裁剪、旋轉或標註操作,最後將轉換後的圖像附加至 Context Window(內容視窗)供模型以更佳視角檢視數據。這種方法從根本上解決標準語言模型在多步驟視覺運算中常見的幻覺問題,透過將計算任務卸載至確定性 Python 環境實現可驗證執行。

Google AI 開發者文件顯示,該功能在 Gemini 3 Flash 中正式支援,需同時啟用程式碼執行工具和思考模式方能啟動圖像處理能力。有媒體報導指出,此技術於 1 月 26 日透過 Google AI Studio 開發工具和 Vertex AI 的 Gemini API 正式推出,標誌著 AI 處理圖像方式的根本性變革。

三大應用場景重塑行業標準

建築合規驗證平台 PlanCheckSolver.com 的實測數據展現 Agentic Vision 的商業價值。該公司透過啟用 Gemini 3 Flash 的程式碼執行功能,使 AI 驅動的建築圖則驗證準確率提升 5%。系統能夠迭代檢視高解像度輸入,自動生成 Python 程式碼裁剪並分析屋頂邊緣或建築區段等特定區域,將裁剪圖附加回 Context Window 以圖像化驗證複雜建築法規合規性。這種主動檢視機制取代傳統單次掃描模式,讓 AI 能夠像人類專家般聚焦關鍵細節。

在圖像標註應用中,Gemini 3 Flash 展現與環境互動的新能力。當系統被要求計算手部手指數量時,模型執行 Python 程式碼在每根識別的手指上繪製邊界框和數字標籤,這種「視覺草稿本」確保最終答案基於像素級精確理解而非估算。視覺數學處理能力則體現在高密度表格解析場景,系統能識別原始數據、編寫程式碼將先前的 SOTA 基準歸一化為 1.0 並生成專業 Matplotlib 長條圖,以可驗證執行取代機率猜測。

企業決策者需關注的競爭態勢

DeepSeek 於 1 月 27 日發佈的 OCR 2 模型採用 DeepEncoder V2 架構,以語意推理方法取代傳統掃描式視覺編碼,僅需 256 至 1,120 個視覺 Tokens 即可處理複雜文檔頁面,在 OmniDocBench v1.5 基準測試中取得 91.09% 總分,較前代提升 3.73%。這種「視覺感知壓縮」策略實現 7 至 20 倍的 Tokens 減少,顯著降低大型語言模型的計算成本。相較之下,Google 的策略聚焦於透過程式碼執行實現動態圖像操作,兩種路徑代表多模態 AI 發展的不同技術哲學。

企業 AI 策略專家指出,2026 年成功的 AI 策略將混合基礎模型的神經直覺與符號及語意系統的結構化推理,這種混合架構結合大型語言模型的創造力與領域特定邏輯的治理、精確性和可解釋性。Gartner 預測到 2026 年,超過 60% 的企業應用程式將嵌入生成式 AI 以增強工作流程。在此背景下,Agentic Vision 的可驗證執行特性為企業提供關鍵的審計能力和合規保障。

Gemini 3 Flash 在 SWE-bench Verified 代理編碼測試中達到 78% 分數,不僅超越 2.5 系列,更勝過 Gemini 3 Pro。該模型以不到 Gemini 3 Pro 四分之一的成本推動品質與成本效能的帕累托前沿(Pareto frontier),為高頻開發任務提供新的效能標準。

技術演進路徑與擴展計劃

Google 透露目前 Gemini 3 Flash 在檢測精細細節時已能隱式執行縮放操作,但旋轉圖像或執行視覺數學等其他功能仍需明確提示觸發。團隊正致力於在未來更新中使這些行為完全隱式化,並探索為 Gemini 模型配備更多工具,包括網上搜尋和反向圖像搜尋功能以進一步奠定其對世界的理解基礎。該能力計劃從 Gemini 3 Flash 擴展至其他模型尺寸。

DataCamp 發佈的 2026 年視覺語言模型排行榜顯示,Gemini 2.5 Pro 目前在 LMArena 和 WebDevArena 排行榜上領先,在開放 LLM 排行榜中的視覺語言能力位居頂級模型之列。然而 Anthropic 的 Claude 4 在圖像化推理和視覺問答方面超越多數頂級模型,顯示市場競爭持續白熱化。

電腦視覺技術趨勢分析指出,2026 年從邊緣到雲端的協同作業、私隱優先 AI 和自訂視覺策略將成為最具影響力的發展方向。企業需建立能夠在雲端、開源生態系統和專有系統間協調的 AI 編排層,這將成為企業適應性的骨幹,能夠在模型間切換、執行合規並以業務邏輯背景化每個決策。

對企業的策略意涵

Agentic Vision的可驗證執行特性為企業帶來三重優勢:更快的法規對齊、更佳的成本控制和顯著改善的可審計性。建築、製造、醫療影像和金融文件處理等需要精確視覺檢視的產業,可透過此技術減少人工驗證成本並提升合規準確度。IBM 專家預測 2026 年 AI 和技術趨勢將重塑多個產業的運作模式,而視覺 AI 的主動調查能力正是此轉型的關鍵驅動因素之一。

企業決策者應評估現有視覺處理工作流程中哪些環節可受益於主動式圖像調查,特別是涉及高解像度文檔分析、品質控制檢驗和複雜視覺數學計算的場景。開發團隊可透過 Google AI Studio 的示範應用程式體驗此功能,或在 AI Studio Playground 中啟用「程式碼執行」工具進行實驗。隨著此技術從單一模型擴展至整個 Gemini 系列,早期採用者將在建立 AI 驅動視覺分析能力方面取得先發優勢。

未來企業需思考的問題不僅是 AI 能變得多聰明,更是如何智慧地選擇構建和治理這些系統。Agentic Vision 的可驗證執行框架為此提供一個可行的答案,將 AI 從黑盒機率系統轉變為可追溯、可審計的決策支援工具。

資料來源: google, sina