close
人工智能

Google 重新定義滑鼠操作 Magic Pointer 把 Gemini AI 嵌入每一次點擊

screenshot

 

Google DeepMind 上周公布名為 Magic Pointer 的研究成果,把 Gemini 多模態人工智能直接整合到滑鼠游標,宣稱這是 60 年以來電腦游標的首次根本性重新設計,研究員 Adrien Baranes 與 Rob Marchant 帶領的項目透過游標即時擷取熒幕視覺及語意脈絡並配合麥克風語音輸入,容許用戶以「這個」及「那個」等指示代詞配合指向動作下達命令,無須再切換到獨立的 AI 對話視窗。新功能於 5 月 12 日起率先在 Chrome 的 Gemini 服務全面推出,今年秋季將登陸 Google 全新手提電腦平台 Googlebook,預計售價屬高階定位,Acer、ASUS、Dell、HP 及 Lenovo 將成首批硬件夥伴。對企業而言這項技術預示 AI 互動由拖內容入聊天框轉向 AI 跟着游標走的範式遷移,將重塑軟件設計、生產力工具市場以至硬件採購邏輯。

 

50 年來首次重塑指向裝置

回顧電腦游標的演變軌跡可以更清晰理解 Google 這次動作的份量,1964 年 Doug Engelbart 與 Bill English 在 Stanford Research Institute 以木材建造首部單鍵滑鼠原型,配備金屬輪追蹤 x 軸與 y 軸座標並於 1970 年取得專利。Engelbart 在 1997 年領取 Lemelson-MIT 獎時預言數碼科技將以前所未有的方式滲透社會運作。半個世紀過去滑鼠游標除了加入右鍵功能外幾乎沒有結構性改變,這亦是 Google 判斷市場已積累足夠勢能迎接下一次革新的依據。

DeepMind 研究團隊指出目前 AI 互動模式存在根本摩擦,多數 AI 助手以獨立視窗形式運作令用戶必須複製、貼上或拖拉內容至聊天介面才能取得協助以致工作流頻繁中斷。研究員在官方網誌寫道公司期望能建立反向的互動模式,讓直觀的 AI 在用戶使用的每一個工具中提供協助以避免打斷工作節奏。Magic Pointer 的核心設計目標是把擷取脈絡與意圖的繁瑣工作從用戶轉移至電腦。

 

四項設計原則解構

Google 為這個項目訂立四項設計原則,第一項 Maintain the flow 主張 AI 能力應該跨應用程式運作讓用戶毋須跳出原本工作環境,舉例來說用戶可以指向 PDF 要求摘要或停留在統計表格上要求生成圖表。第二項 Show and tell 處理編寫提示詞的負擔,AI 游標自動擷取熒幕視覺及語意脈絡以減少用戶需要詳述指令的麻煩。第三項原則建構於人類自然語言習慣上,DeepMind 觀察到日常溝通鮮少使用冗長段落,多數時候依賴「修好這個」及「移到那邊」這類短語配合手勢,新系統容許用戶以類似的口語簡寫下達指令並由 AI 自行補完脈絡。第四項 Turn pixels into actionable entities 則讓游標識別熒幕內容的結構性物件,例如把手寫筆記相片轉化為互動式待辦清單,或將暫停的影片畫面中的餐廳轉換為訂位連結。

實際示範環節相當具說服力,在示範網站上用戶把游標停在熒幕一隻螃蟹圖像上並說「把這個移到這邊」,系統會同時讀取游標位置與語音脈絡,然後抓取螃蟹圖像移動至游標所指位置。DeepMind 行政總裁 Demis Hassabis 形容這種體驗相當神奇,並強調游標由純粹的選取工具進化為主動式助手。

 

Chrome 即時推出 Googlebook 秋季登場

Google 同步揭開 Magic Pointer 的產品化路線圖,由 5 月 12 日起 Chrome 用戶可以透過游標向 Gemini 詢問網頁特定部分的問題,舉例來說選取頁面上幾項產品要求比較,或指向客廳相片要求視覺化擺放新沙發的效果。實驗示範同步登陸 Google AI Studio ,用戶可以測試圖片編輯及地圖搜尋的點選語音互動模式。

更具策略意義的是 Googlebook 平台,這款於 5 月 12 日 Android Show I/O Edition 公布的新手提電腦類別運行 Aluminium OS ,本質上是改造為桌面平台的 Android 17 版本,配備自訂視窗管理器、原生多工處理及深度整合的 Gemini 系統,硬件夥伴包括 Acer、ASUS、Dell、HP 及 Lenovo 並將於今年秋季陸續推出產品。Google Android 平板及手提電腦產品高級總監 Alexander Kuscher 表示公司希望 Gemini Intelligence 把游標變得真正智能。Googlebook 的定位是 Chromebook 的高階接替方案並配備獨特的 Glowbar 燈條設計,整套產品理念由作業系統轉向智能系統。

 

企業生產力與商業應用的衝擊

對企業而言 Magic Pointer 的出現首先是生產力工具市場的洗牌。傳統 SaaS 應用普遍假設用戶會以鍵盤輸入指令或切換至聊天介面取得 AI 協助,一旦游標式互動取代這套假設,企業軟件供應商需要重新設計用戶介面並把 AI 行動點直接嵌入熒幕物件層。指向 Salesforce 的客戶記錄要求生成跟進電郵,或停在 Excel 圖表上要求轉換視覺化形式,這類工作流將成為新常態。

其次是企業採購邏輯的調整,Googlebook 高階定位意味着企業 IT 採購需要評估 Chromebook 教育市場以外的商用部署可能性。Chromebook 佔全球教育手提電腦市場逾 60% 並服務 3,800 萬名美國 K-12 學生,93% 的美國學區計劃今年採購 Chromebook ,雖然 Googlebook 不會直接取代這個基礎,但會在企業知識工作者市場與 Apple MacBook 及 Microsoft Copilot+ PC 正面競爭。Apple 推出定價 599 美元(約港幣 4,672 元)的 MacBook Neo 把入門價壓至 600 美元(約港幣 4,680 元)以下,Snapdragon X Elite 則為 Windows 手提電腦帶來具競爭力的 AI 推理能力,Googlebook 選擇放棄入門市場以與這兩條路線形成三足鼎立格局。

第三是私隱與監管風險,游標持續擷取熒幕視覺及語意脈絡必然引發資料保護疑慮,企業 IT 主管在部署前必須評估資料外傳邊界、本機處理範圍及審計記錄機制。歐盟數碼市場法(DMA)對 Gemini 在作業系統層級整合的裁決預定於 2026 年 7 月出爐,距離 Googlebook 秋季上市僅相隔數月,裁決結果可能要求 Google 向競爭對手 AI 助手開放同等的系統整合權限,這會直接影響跨國企業在歐洲部署 Googlebook 的策略。

 

瀏覽器 AI 戰場的新前線

Magic Pointer 亦標誌 Google 在瀏覽器 AI 戰場的反攻,OpenAI Atlas、Perplexity Comet、Opera Neon、BrowserOS 以及 Google 自家的 Disco 預覽版正把瀏覽器 AI 由側邊欄功能升級為獨立產品類別。游標式互動讓 Gemini in Chrome 取得差異化優勢,毋須與其他助手在網頁摘要或跨站任務代理這類同質化功能上正面拼殺。

從技術架構觀察這套系統把工程重心由提示詞設計轉向強健的脈絡擷取、多模態接地及客戶端邊界消歧,對 AI 應用開發者而言未來的最佳化重點將集中在快速視覺裁切、私隱感知的脈絡過濾以及客戶端與模型之間的延遲預算管理。Google 把脈絡擷取整合到游標這個持續性介面元素,本質上把 AI 嵌入核心互動隱喻而非困在獨立分區。

 

AI 介面化進入新階段

Magic Pointer 預示 AI 介面化進入新階段,過去三年的 AI 競爭聚焦於模型能力提升,未來 12 至 24 個月的戰場將轉移至 AI 如何融入既有互動模式,業界將重新審視游標、視像鏡頭、麥克風及觸控等輸入裝置。Apple 與 Microsoft 必然會以類似邏輯回應,Apple Intelligence 與 Copilot 都有條件把脈絡感知擴展至游標層級,這個賽道的真正贏家將取決於誰能率先建立穩固的開發者生態,吸引第三方應用主動暴露結構化物件供 AI 識別。Google 透過 Magic Pointer 釋出的訊號相當明確指出未來的人機介面不再是打開 AI 應用程式,而是讓 AI 跟着你的注意力走,企業愈早調整內部流程就愈能把握下一波生產力革命的紅利。

 

來源:DeepMind

Tags : GeminigoogleGooglebookMagic Pointer人工智能