Google I/O 2026：從生成式對話到自主辦公室

全球科技焦點 Google I/O 2026 上週於加州舉行，大會的關鍵訊號是人工智能（AI）的發展已出現顯著的範式轉移，正式從單純「一問一答」的被動式生成對話，邁向具備自主執行能力的「AI 代理人」（AI Agents）時代。 Google 此次透過底層運算模型的升級、辦公生態圈的自動化深化，以及軟硬體融合的初步嘗試，對外展現了其重塑未來數位生活與商業運作架構的龐大野心。

在核心技術層面， Google 率先推出了全新一代的輕量化模型 Gemini 3.5 Flash，並同步向全球開發者與用戶免費開放使用。這款新模型在運算效率與成本控制上取得了突破性進展，其 Token 輸出速度較其他前沿模型快 4 倍，而運算成本則大幅降低逾半，同時在多步推理與複雜任務處理的表現，已可媲美甚至超越部分過往旗艦模型。這意味企業用戶能以更低成本，結合全新升級的 Antigravity 開發平台，靈活構建高效且定制化 AI 代理，加速產業數位轉型的步伐。

針對大眾市場與日常辦公場景，大會焦點落在定位為全天候個人智慧助理的 Gemini Spark。此產品建基於 Gemini 3.5 及 Antigravity 架構，本質上是可在後台自主運行複雜工作流的決策引擎。用戶只需透過自然語言下達指令，系統便能主動串聯 Gmail、 Google 日曆等，自動處理郵件、安排會議、整理文件，並每日生成重點摘要。為應對市場對資訊安全與隱私保障的疑慮， Google 在該系統中引入了代理支付協定與關鍵操作審查機制，確保高風險操作須獲得用戶授權。相關功能預計於今年夏季內嵌至 Chrome 瀏覽器，及今年稍後讓用戶能透過 Android Halo 介面，在 Android 系統上檢視其即時更新及任務進度，預示全自動化辦公時代的來臨。

在多媒體視覺技術與內容創作領域， Google 則展示了其最新的 Gemini Omni 多模態世界模型。不同於以往分開處理文字、音訊與影像的方式， Gemini Omni Flash 實現了跨模態的深度融合，讓系統能更全面理解資訊。該模型不僅能精準理解語音，更具備對物理規律（如重力、流體動力學與物體運動軌跡）的理解能力。在示範中，用戶可透過語音即時調整影片內容，包括場景與效果，大幅提升製作效率這項技術的突破，將為 YouTube Shorts 等短影音生態圈的創作者帶來更高效的生產工具。

Google 亦宣布搜尋引擎迎來 25 年來最大規模的搜尋框升級，並在 Android 系統全面導入具備深度多步驟自動化功能的 Gemini Intelligence。同時與 Samsung 合作研發的 Android XR 智慧眼鏡亦首次亮相，預計於今年秋季推出，用戶可透過語音與視線追蹤呼叫 Gemini 服務，打造一個將虛擬資訊與現實生活無縫接軌的全新硬體生態。 Google 正憑藉其龐大的算力與日益完善的代理人生態圈，鞏固技術領先地位，並推動科技由輔助工具邁向協同夥伴的新紀元。

Francis Fong 方保僑

方保僑先生於資訊、通訊、科技及電子消費品市場工作超過二十年，引入過不少新科技產品，並創辦多個業界組職及為多個非營利機構擔任委員提供專業意見。現任香港資訊科技商會榮譽會長、香港互動市務商會創會及榮譽會長、香港消費電子產品聯盟創會會長、電子學習聯盟創辦人、世界資訊通訊與服務業聯盟董事、電訊事務管理局辦公室電訊規管事務咨詢委員會成員、運輸署智慧交通基金管理委員會委員、樂施會香港及樂施會澳門董事會成員、香港小童群益會資訊科技委員會委員、香港紅十字會資訊科技委員會成員，仁愛堂堂務行政委員會外界委員等。