ChatGPT 加入多模態功能 支援語音及圖像上載

近來 AI 聊天機械人的能力越來越多元化,除了文字對答外,多媒體處理以及程式編寫也已經可以在統一模型內 處理。最近 OpenAI 就宣布 ChatGPT 將會支援語音輸入和圖片上載,提供更豐富的使用體驗。

今次新加入的功能可讓用戶與 ChatGPT 進行來回對話,方式類似 Amazon Alexa、Apple Siri 或 Google Assistant。用戶還可以要求機械人分析和回應他們上載的圖片,例如翻譯指示牌內容,或者識別圖片中的物品等等。

這個新功能只在 ChatGPT 的 Android 和 iOS 版本應用程式提供語音輸入,圖片上載功能則將在手機應用程式和瀏覽器版本上都可用。OpenAI 表示,這些功能採用其自家的語音識別、合成和視覺模型,並將在接下來的兩星期內向 ChatGPT Plus 和 Enterprise 的訂閱用戶開放。其他用戶包括開發人員等將會在稍後獲得這些功能。

OpenAI 在博客中表示,語音對話功能將允許用戶透過說話來談論任何內容。用戶只需從五種語音選項中選擇一種,說出他們想要的內容,機械人將使用所選的語音提供答案。例如,用戶可以要求一個睡前故事,或者提出想要進行討論的問題。這些語音是與多名語音藝術家合作,製作合成的人性化語音。為了防止語音合成被濫用,他們已將其用途限制至語音聊天和某些經許可的合作夥伴應用,包括與 Spotify 合作,為 Postcast 製作者將內容轉錄成不同的語言,同時保留他們自己的聲音特色。

圖片上載功能則類似 Google Lens,用戶可以選擇圖片並將其上載,同時提出指示,ChatGPT 就可以分析圖像並產生答案。應用例子包括幫助用戶修理單車、解決數學問題,甚至在博物館提供面前紀念碑的歷史等。

來源:OpenAI