Apple 推自家 OpenELM 大型語言模型　可於手機或電腦等終端運作

人工智能 by Antony Shum on 26 四月, 2024

向來沒怎麼強調 AI 發展的 Apple 近來有不少新動作，早前宣佈推出 OpenELM 模型，據稱表現比 OLMo 等其他類似模型有更佳的表現。

全名為開源高效語言模型（Open-source Efficient Language Model）的 OpenELM 採用開放的公共資料集，例如 GitHub 的 RedPajama 資料集、大量書籍、維基百科、StackExchange 的問答、ArXiv 論文和 Project Gutenberg 等的 Dolma 資料集進行預訓練。由於採用分層擴展策略，可以將模型參數更有效分配到 Transformer，據稱比 OLMo 的準確度高出 2.36%，同時使用的預訓練 Token 只需要一半。

Apple 在 Hugging Face 公開了 4 個參數版本，包括 2.7 億、4.5 億、11 億及 30 億參數，也是繼多模態語言模型 Ferret 和 MM1 之後第三個公佈的模型，雖然 Apple 並未明言 OpenELM 將會如何應用，但據估計這個模型將會應用在 Apple 各產品中作本機 AI 運算，以便確保數據不需要傳送至雲端處理，提升私隱和反應速度。

值得一提的是，OpenELM 一如其名，公佈時採用相當開放的態度，除了模型權重和推理代碼都有公開，訓練和評估框架，包括訓練記錄、檢查點和配置都是公開範圍。雖然附帶的軟件不屬於開源許可範圍內，衍生開發的權利也受保留，不過這樣的透明度也顯示出 Apple 希望展現進一步參與 AI 開發社群的態度，與一貫封閉開發產品的態度截然不同。

來源：Apple

Tags : apple