Hugging Face 推出視覺語言模型 Idefics2 縮小參數規模

AI 模型現在的開發重點除了提升效能外，也注重提升小規模模型的能力。最近 Hugging Face 就升級 Idefics 視覺語言模型到第二代，提升模型效率。

Hugging Face 推出的新一代 Idefics2 視覺語言模型，這個模型最初是利用 DeepMind 的技術開發，新一代模型不僅參數規模從上代的 800 億減少到 80 億，而且還採用開源許可以及提供增強的光學字符識別（OCR）功能，在規模和功能上已經算是追上 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 等競爭對手。

據介紹，Idefics2 的主要進步之一是改進了對圖像的處理，現在支援以高達 980 x 980 像素的原始分辨率處理圖像，同時可以保持圖像的原始長寬比，無需將圖像調整為傳統圖像處理模型所需的標準正方形格式，大幅增強了模型的實用性。另外 OCR 功能也可以提供從圖像或檔案更精確提取文字的服務，結合分析和回應有關圖表、數字和文件內容的能力，對於數據分析和商業應用來說就非常實用。

Hugging Face 在網誌中介紹，新一代模型採用簡化的架構，圖像首先由視覺編碼器處理，然後進行學習感知器池化和多層感知器模態投影。然後將生成的池化序列與文本嵌入連接，建立圖像和文本數據的交錯序列。新的架構可以提高模型處理複雜多模態任務的效率和有效性。

Hugging Face 推出視覺語言模型 Idefics2 縮小參數規模

OpenAI 宣佈於東京成立辦事處並開發日文特別版 GPT-4

Microsoft 宣佈開發出至今最低錯誤率量子電腦

Hugging Face 推出視覺語言模型 Idefics2 縮小參數規模

you might also like

傳 Apple AI 模型主管跳槽 Meta 年薪數千萬美元挖角成功

逾 50 歐洲企業聯署要求延遲 AI 法案 監管機構面臨產業壓力

美國參議院通過移除 AI 監管禁令 OpenAI 等 AI 企業遊說失敗

「出貓」初創 Cluely 獲 a16z 領投 估值飆升至 1.2 億美元引發業界關注

AI 推理過程透明度面臨挑戰 開發商仍然難以掌控模型真實運作

傳 Apple AI 模型主管跳槽 Meta　年薪數千萬美元挖角成功

逾 50 歐洲企業聯署要求延遲 AI 法案　監管機構面臨產業壓力

美國參議院通過移除 AI 監管禁令　OpenAI 等 AI 企業遊說失敗

「出貓」初創 Cluely 獲 a16z 領投　估值飆升至 1.2 億美元引發業界關注

AI 推理過程透明度面臨挑戰　開發商仍然難以掌控模型真實運作