close
人工智能科技專欄

Google I/O 2026:從生成式對話到自主辦公室


2sik832sik832sik

全球科技焦點 Google I/O 2026 上週於加州舉行,大會的關鍵訊號是人工智能(AI)的發展已出現顯著的範式轉移,正式從單純「一問一答」的被動式生成對話,邁向具備自主執行能力的「AI 代理人」(AI Agents)時代。 Google 此次透過底層運算模型的升級、辦公生態圈的自動化深化,以及軟硬體融合的初步嘗試,對外展現了其重塑未來數位生活與商業運作架構的龐大野心。

在核心技術層面, Google 率先推出了全新一代的輕量化模型 Gemini 3.5 Flash,並同步向全球開發者與用戶免費開放使用。這款新模型在運算效率與成本控制上取得了突破性進展,其 Token 輸出速度較其他前沿模型快 4 倍,而運算成本則大幅降低逾半,同時在多步推理與複雜任務處理的表現,已可媲美甚至超越部分過往旗艦模型。這意味企業用戶能以更低成本,結合全新升級的 Antigravity 開發平台,靈活構建高效且定制化 AI 代理,加速產業數位轉型的步伐。

針對大眾市場與日常辦公場景,大會焦點落在定位為全天候個人智慧助理的 Gemini Spark。此產品建基於 Gemini 3.5 及 Antigravity 架構,本質上是可在後台自主運行複雜工作流的決策引擎。用戶只需透過自然語言下達指令,系統便能主動串聯 Gmail、 Google 日曆等,自動處理郵件、安排會議、整理文件,並每日生成重點摘要。為應對市場對資訊安全與隱私保障的疑慮, Google 在該系統中引入了代理支付協定與關鍵操作審查機制,確保高風險操作須獲得用戶授權。相關功能預計於今年夏季內嵌至 Chrome 瀏覽器,及今年稍後讓用戶能透過 Android Halo 介面,在 Android 系統上檢視其即時更新及任務進度,預示全自動化辦公時代的來臨。

在多媒體視覺技術與內容創作領域, Google 則展示了其最新的 Gemini Omni 多模態世界模型。不同於以往分開處理文字、音訊與影像的方式, Gemini Omni Flash 實現了跨模態的深度融合,讓系統能更全面理解資訊。該模型不僅能精準理解語音,更具備對物理規律(如重力、流體動力學與物體運動軌跡)的理解能力。在示範中,用戶可透過語音即時調整影片內容,包括場景與效果,大幅提升製作效率這項技術的突破,將為 YouTube Shorts 等短影音生態圈的創作者帶來更高效的生產工具。

Google 亦宣布搜尋引擎迎來 25 年來最大規模的搜尋框升級,並在 Android 系統全面導入具備深度多步驟自動化功能的 Gemini Intelligence。同時與 Samsung 合作研發的 Android XR 智慧眼鏡亦首次亮相,預計於今年秋季推出,用戶可透過語音與視線追蹤呼叫 Gemini 服務,打造一個將虛擬資訊與現實生活無縫接軌的全新硬體生態。 Google 正憑藉其龐大的算力與日益完善的代理人生態圈,鞏固技術領先地位,並推動科技由輔助工具邁向協同夥伴的新紀元。

 

Francis Fong 方保僑

WhatsApp Image 2025-06-20 at 18.18.50

方保僑先生於資訊、通訊、科技及電子消費品市場工作超過二十年,引入過不少新科技產品,並創辦多個業界組職及為多個非營利機構擔任委員提供專業意見。現任香港資訊科技商會榮譽會長、香港互動市務商會創會及榮譽會長、香港消費電子產品聯盟創會會長、電子學習聯盟創辦人、世界資訊通訊與服務業聯盟董事、電訊事務管理局辦公室電訊規管事務咨詢委員會成員、運輸署智慧交通基金管理委員會委員、樂施會香港及樂施會澳門董事會成員、香港小童群益會資訊科技委員會委員、香港紅十字會資訊科技委員會成員,仁愛堂堂務行政委員會外界委員等。

 

 

Tags : AI AgentsAndroid XRGemini 3.5Google I/O 2026人工智能數位轉型自動化辦公