來自多所中國大學的研究人員開發出新型視覺語言模型 (VLM) LLaVA-o1,其靈感源自 OpenAI 的 o1 模型所採用的推理時擴展法,大幅提升了模型的推理能力。
來自中國的研究指,現有 VLM 模型在推理方面的運算過程並不系統化,架構也不完善,因此並無法生成推理流程,甚至在推理中途迷失。而 OpenAI 的 o1 模型就用了推理時擴展法 (inference-time scaling),讓模型可以暫停運算審視結果,改善推理表現。
LLaVA-o1 也以此為概念,採用四階段推理過程,包含總結、描述、推理和結論。系統會在內部完成前三個階段的運算,只會向用家展示最終結論。這種結構化的方法使模型能更有效地處理複雜的視覺語言任務。
研究團隊使用約十萬組圖像問答配對資料進行訓練,這些資料涵蓋多輪問答、圖表解讀等多種任務。透過 GPT-4o 生成詳細的四階段推理過程,再以 Llama-3.2-11B-Vision-Instruct 為基礎進行微調,最終開發出 LLaVA-o1。
實驗結果顯示,LLaVA-o1 在多模態推理基準測試中表現出色,相較基礎 Llama 模型平均提升了 6.9% 的性能。更令人驚豔的是,它不僅超越了同等規模的開源模型,甚至在某些測試中優於 GPT-4-o-mini 和 Gemini 1.5 Pro 等閉源模型。
來源:VentureBeat