近來高階 AI 模型已經大多採用多模態設計,可以同時處理圖像和文字輸入和輸出,而法國 AI 初創 Mistral 最近就終於推出首個多模態 AI 模型 Pixtral 12B,為市場帶來新選擇。
Pixtral 12B 擁有 120 億參數、大小約 24GB,是基於 Mistral 的文本模型 Nemo 12B 基礎上所開發。Pixtral 12B 能夠回答關於任意數量和大小圖像的指令,用戶可以透過 URL 還是 base64 編碼提供,可以執行圖像描述和物體計數等任務,類似於 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4 等等。不過 Mistral 使用了哪些圖像數據來開發 Pixtral 12B 目前並未公開,因此對於這個模型會否未來牽涉版權相關的法律問題,則仍然存在疑問。
雖然 Mistral 尚未明確標示 Pixtral 12B 的具體許可條款,但按其標準開發許可,商業應用需要付費,研究和學術用途則無需許可免費使用。目前 Pixtral 12B 已於 GitHub 和 Hugging Face 平台提供下載使用。Mistral 開發者關係主管 Sophia Yang 表示,Pixtral 12B 將很快在公司的聊天機器人和 API 平台「Le Chat」和「Le Platforme」上提供測試。
成立只有一年多的 Mistral 被視為歐洲版的 OpenAI,Microsoft 持有其少數股權,而 Pixtral 12B 的發表剛好緊隨他們獲得 General Catalyst 領投的 6.45 億美元融資,目前公司估值達 60 億美元。
來源:TechCrunch