AI 模型現在的開發重點除了提升效能外,也注重提升小規模模型的能力。最近 Hugging Face 就升級 Idefics 視覺語言模型到第二代,提升模型效率。
Hugging Face 推出的新一代 Idefics2 視覺語言模型,這個模型最初是利用 DeepMind 的技術開發,新一代模型不僅參數規模從上代的 800 億減少到 80 億,而且還採用開源許可以及提供增強的光學字符識別(OCR)功能,在規模和功能上已經算是追上 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 等競爭對手。
據介紹,Idefics2 的主要進步之一是改進了對圖像的處理,現在支援以高達 980 x 980 像素的原始分辨率處理圖像,同時可以保持圖像的原始長寬比,無需將圖像調整為傳統圖像處理模型所需的標準正方形格式,大幅增強了模型的實用性。另外 OCR 功能也可以提供從圖像或檔案更精確提取文字的服務,結合分析和回應有關圖表、數字和文件內容的能力,對於數據分析和商業應用來說就非常實用。
Hugging Face 在網誌中介紹,新一代模型採用簡化的架構,圖像首先由視覺編碼器處理,然後進行學習感知器池化和多層感知器模態投影。然後將生成的池化序列與文本嵌入連接,建立圖像和文本數據的交錯序列。新的架構可以提高模型處理複雜多模態任務的效率和有效性。