close
人工智能

Hugging Face 推出視覺語言模型 Idefics2 縮小參數規模

Hugging Face 推出視覺語言模型 Idefics2 縮小參數規模

AI 模型現在的開發重點除了提升效能外,也注重提升小規模模型的能力。最近 Hugging Face 就升級 Idefics 視覺語言模型到第二代,提升模型效率。

Hugging Face 推出的新一代 Idefics2 視覺語言模型,這個模型最初是利用 DeepMind 的技術開發,新一代模型不僅參數規模從上代的 800 億減少到 80 億,而且還採用開源許可以及提供增強的光學字符識別(OCR)功能,在規模和功能上已經算是追上 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 等競爭對手。

Hugging Face 推出視覺語言模型 Idefics2 縮小參數規模 1

據介紹,Idefics2 的主要進步之一是改進了對圖像的處理,現在支援以高達 980 x 980 像素的原始分辨率處理圖像,同時可以保持圖像的原始長寬比,無需將圖像調整為傳統圖像處理模型所需的標準正方形格式,大幅增強了模型的實用性。另外 OCR 功能也可以提供從圖像或檔案更精確提取文字的服務,結合分析和回應有關圖表、數字和文件內容的能力,對於數據分析和商業應用來說就非常實用。

Hugging Face 在網誌中介紹,新一代模型採用簡化的架構,圖像首先由視覺編碼器處理,然後進行學習感知器池化和多層感知器模態投影。然後將生成的池化序列與文本嵌入連接,建立圖像和文本數據的交錯序列。新的架構可以提高模型處理複雜多模態任務的效率和有效性。

Tags : aiHugging Face