除了目前大熱門的生成式 AI 聊天機械人應用之外,圖像生成 AI 模型也仍然在進步之中。Meta 最近就公佈了新的圖像生成 AI 模型 CM3leon,據稱其性能得到再次提升。
Meta 新推出的 CM3leon 是個多模態基礎模型 (Multi-Modal Model) ,輸入文字可以生成圖像,以及反過來輸入圖像生成文字,可以用於例如自動生成標題等實用應用場景。Meta 解釋指,之前使用的文字到圖像生成技術主要依賴擴散模型來輸出圖像,而 CM3leon 所使用的是不同的方法,使用了基於標記的自回歸模型 (Token-based Autoregressive Model)。
在 Meta 一篇名為《擴展自回歸多模態模型》的論文中解釋,擴散模型因其強大的性能和相對低的計算成本,近來在圖像生成工作中佔了主導地位,相比之下以前基於標記的自回歸模型雖然也能產生強大的結果,尤其是具有更好的全局圖像一致性,但其訓練和用於推理的成本要高得多。
今次 CM3leon 的研發成果則證明了基於標記的自回歸模型實際上也可以比基於擴散模型的方法更有效率,在文字到圖像的生成方面性能更強勁,其訓練所需的數據運算量比以前基於變換器的方法少了五倍。
來源:Meta