Cohere 推出首個視覺模型 Aya Vision 開放權重多模態設計帶來更多應用可能

雖然 AI 競爭下開發成本似是越來越昂貴,不過仍然有不少初創推出新的 AI 模型,為市場帶來更多選擇。加拿大 AI 初創公司 Cohere 旗下的非營利研究部門 Cohere for AI 近日就推出了其首個視覺模型 Aya Vision,這個新型開放權重多模態 AI 模型,整合了語言和視覺能力,並支援 23 種不同語言,為企業提供了重要的多語言 AI 工具。

強大的多語言支持與技術創新

Aya Vision 設計用於增強 AI 解釋圖像、生成文本和將視覺內容翻譯成自然語言的能力,使多語言 AI 更加易於使用和高效。該模型已在 Cohere 網站以及 AI 代碼社區 Hugging Face 和 Kaggle 上發佈,採用 Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)許可,允許研究人員和開發者免費使用、修改和分享該模型用於非商業目的,只要給予適當的署名。此外,Aya Vision 還可透過 WhatsApp 使用,允許用戶在熟悉的環境中直接與模型互動。

模型有 8B(80 億)參數和 32B(320 億)參數兩個版本,其中參數指的是 AI 模型中的內部設定數量,包括權重和偏差,通常參數越多,模型性能越強大。儘管領先的競爭對手 AI 模型可以理解多種語言的文本,但將這種能力擴展到基於視覺的任務是一個挑戰。Aya Vision 克服了這挑戰,允許用戶生成圖像標題、回答視覺問題、翻譯圖像並用多種語言執行基於文本的語言任務,包括英文、法文、德文、西班牙文、意大利文、葡萄牙文、日文、韓文、中文、阿拉伯文等,據 Cohere 表示,這些語言涵蓋了「全球半數人口」。

Cohere 表示,Aya Vision 在參數規模與性能方面展現出了顯著優勢。雖然模型規模明顯小於一些領先的多模態模型,但在多個關鍵基準測試中表現優於更大的替代方案:

  • Aya Vision 8B 的表現優於 Llama 90B,後者的規模大 11 倍
  • Aya Vision 32B 的表現優於 Qwen 72B、Llama 90B 和 Molmo 72B,它們的規模至少是前者的兩倍
  • 在 AyaVisionBench 和 m-WildVision 的基準測試中,Aya Vision 8B 在多語言圖像理解任務中達到了高達 79%的勝率

限制性非商業許可條款仍有一定實用性

雖然 Aya Vision 表面上針對企業市場,但由於其限制性非商業許可條款,企業可能難以充分利用它。然而,CEO、CTO、IT 負責人和 AI 研究人員仍可使用這些模型探索組織內部的 AI 驅動多語言和多模態能力,特別是在研究、原型設計和基準測試方面。

企業仍可將其用於內部研究和開發,評估多語言 AI 性能並實驗多模態應用。CTO 和 AI 團隊會發現 Aya Vision 作為一個高效的開放權重模型很有價值,它的表現優於更大的替代方案,同時需要更少的計算資源。這使其成為對標專有模型、探索潛在的 AI 驅動解決方案和測試多語言多模態交互的有用工具,然後再投入商業部署策略。對於數據科學家和 AI 研究人員來說,Aya Vision 更為有用。其開源性質和嚴格的基準提供了一個透明的基礎,用於研究模型行為、在非商業環境中進行微調,並為開放 AI 進步做出貢獻。

多語言能力對全球經營相當重要

隨著企業擴展到不同語言和文化市場,能夠處理和理解多種語言的 AI 工具將變得越來越重要。企業應該關注趨勢,並評估如何將多語言 AI 技術整合到其全球業務策略之中。同時開源和專有模型間的平衡正在改變 AI 格局。雖然 Cohere 等企業仍在商業範疇尋找立足點,但他們透過開放研究和非商業許可的創新模型促進了整體 AI 生態系統的發展。企業應考慮如何從這種開放創新中獲益,同時為商業應用評估合適的專有解決方案。

此外能夠理解和生成跨越語言和媒體類型的內容的 AI 模型將為客戶服務、市場營銷、產品開發等範疇創造新的可能性。雖然 Aya Vision 的非商業許可令企業無法在營運中直接使用,但它代表了多語言多模態 AI 範疇的重要進步,並為未來可能的商業應用鋪平了道路。企業應密切關注這一範疇的發展,並考慮如何將類似技術整合到其長期 AI 和全球化戰略中。

來源:TechCrunch