close
專題特寫

AI 多模態新時代!顛覆 App Economy 重塑智能語音助手

香港無線科技商會主席李勁華近年為不少企業開班教授生成式 AI 課程,也主辦了不少關於 AI 的行業活動(照片由受訪者提供)

AI 模型的興起,為 IT 業,尤其是「App Economy」創造了新的脈動和機遇。近期的發展,是已經可以結合文字、影像、音訊等多模態資料,進一步瞭解用戶,從而提供更個性化、更智能的服務,本文將深探大型語言模型在 App 周邊的應用、技術問題及未來趨勢,也訪問香港無線科技商會主席李勁華。

多模態未來

當前市場上,AI 模型的發展由幾家龍頭企業主導,其中包括 OpenAI、Anthropic 以及 Google 旗下的 Gemini,這些公司擁有強大的技術團隊和市場影響力。儘管還有其他值得關注的公司,例如 Meta 以及法國 Mistral 等,但論及龍頭地位,OpenAI、Anthropic 和 Google 三大巨頭無疑是最矚目的焦點。

首先,Anthropic 由幾位前 OpenAI 的員工所創立,推出名為 Claude 的大型語言模型。最近,最新 Claude 3.5 版本的推出引起了 AI 界的廣泛關注。

值得注意的是,Claude 3.5 雖仍未成為一個真正的多模式模型,即無法同時處理影像、聲音和文字等多種形式。儘管如此,它已具備一些獨特的功能,例如即時預覽功能。以前,使用 OpenAI 生成網站時,需要大量的程式碼並手動複製粘貼以查看效果。而現在,使用 Claude 時,只需提問,它即時在界面即時顯示結果。

另一方面,Claude 能夠處理較為複雜的編程任務,例如創建遊戲。它甚至能夠開發出貪食蛇和踩地雷等經典遊戲,這對於一般的 AI 來說難以實現。

然而,Claude 仍存在一些限制,如 token 限制雖較高,但仍無法處理非常長篇的程式碼,並且即時預覽功能仍有改進的空間,有時仍需依賴複製粘貼才能查看最終效果。

AI 巨頭競逐

至於微軟方面,儘管其是 OpenAI 的投資者,但自身並未推出具有強勢優勢的語言模型。微軟在 GitHub 上擁有開放源碼的語言模型,然而這些模型規模較小,至於微軟 Copilot 使用的大部分技術都來自 OpenAI。它的幾個選項,包括 creative、balance 和 precise mode,可以根據問題的複雜程度選擇不同的模型進行回答。然而,微軟自身的模型可能並不如此強大,主要依賴於 OpenAI 的技術。

至於 OpenAI 的 GPT-5,目前尚無確切消息。OpenAI CEO Sam Altman 聰明地對於 GPT-5 的傳言保持沉默,甚至可能利用這些謠言來提高 OpenAI 的知名度。因此,即使 GPT-5 可能存在,但其出現的時間和形式仍是未知之數。

「至於蘋果,他們正在積極發展自家的人工智能技術,主要是憑藉裝置內的小型模型。這些模型能夠處理一些不需要創造性的任務,例如摘要筆記。而當涉及到更高階的應用時,蘋果可能會依賴外部的語言模型,比如 OpenAI,來處理這些任務。」

蘋果這樣的策略是出於考慮,如果他們使用自家模型來撰寫文章,可能會出錯,這樣一來蘋果就得負責,但如果使用 OpenAI,相應的風險就可以轉嫁給 OpenAI。

提到 API 服務,幾家龍頭企業都已經開放了 API,這是他們的一個主要收入來源 – 按照 token 的用量來收費,這種模式使得開發者可以更靈活地使用他們的技術。相比之下,採用月費模式的 ChatGPT ,實際上可能利潤並不高,因為用戶幾乎 24 小時不斷地使用,維護的成本也很高,API 計費模式可能具有更大的盈利潛力。

李勁華認為本地企業已開始意識到在不同的工作流程 AI 是無可避免的事情,也開始鼓勵員工主動學習和應用 AI(照片由受訪者提供)

Siri 的進化

談到 Siri 和其他應用程式是否會產生影響,李勁華認為,Siri 可能會取代部分應用程式的功能,卻未必能夠完全取代所有應用程式,特別是涉及大量人際互動的應用程式,比如 Tinder 這類交友軟件。

「相反,Siri 在未來可能會更加人性化,例如在播放劉德華的歌曲時,只需說『我要播放劉德華的歌』,而不需要再說得太具體。這種人機互動方式將徹底改變我們使用 Siri 的體驗。」

隨著越來越多 AI 模型以獨特方式進入 App 經濟,不久後,龐大的語言模型將能夠深入分析用戶問題,迅速提供準確答案,極大提升客戶服務效率。可以預見,智能家居將會運用多模式模型,不止根據用戶語音指令,還可以同時透過電腦的「視覺」來感知用戶和家居,大幅度增進語音控制智慧設備的使用體驗。

當下的數碼時代,AI 模型的飛速發展無疑為 IT 行業帶來了新的機遇與挑戰,尤其是踏入了多模態數據的時代,我們見證了技術如何在深度與廣度上提升用戶體驗。未來,我們將看到的是更為智慧、個性化的互動模式,改變的不僅僅是功能,而是整個人機互動的本質。

「未來嗰啲語音助手,佢聽你講嘢時候,就冇咁容易 get 錯,然後佢人性化咗,所以你就會好似 同個人去溝通,咁樣同個電話或機器去溝通,呢個會係最大嘅革命;反而佢個功能上,短期內我唔覺得有啲咩革命,因為你同 Siri 傾完計,佢話你幫佢 mark 個 calendar,或者係聽日 8 點鐘叫你起身,其實佢做嘅嘢係一同一樣冇變過,但係人機嘅互動自始就會徹底咁改變。」

採訪、撰文:尹思哲

Tags : 流動置頂置頂
尹思哲

The author 尹思哲