向來沒怎麼強調 AI 發展的 Apple 近來有不少新動作,早前宣佈推出 OpenELM 模型,據稱表現比 OLMo 等其他類似模型有更佳的表現。
全名為開源高效語言模型(Open-source Efficient Language Model)的 OpenELM 採用開放的公共資料集,例如 GitHub 的 RedPajama 資料集、大量書籍、維基百科、StackExchange 的問答、ArXiv 論文 和 Project Gutenberg 等的 Dolma 資料集進行預訓練。由於採用分層擴展策略,可以將模型參數更有效分配到 Transformer,據稱比 OLMo 的準確度高出 2.36%,同時使用的預訓練 Token 只需要一半。
Apple 在 Hugging Face 公開了 4 個參數版本,包括 2.7 億、4.5 億、11 億及 30 億參數,也是繼多模態語言模型 Ferret 和 MM1 之後第三個公佈的模型,雖然 Apple 並未明言 OpenELM 將會如何應用,但據估計這個模型將會應用在 Apple 各產品中作本機 AI 運算,以便確保數據不需要傳送至雲端處理,提升私隱和反應速度。
值得一提的是,OpenELM 一如其名,公佈時採用相當開放的態度,除了模型權重和推理代碼都有公開,訓練和評估框架,包括訓練記錄、檢查點和配置都是公開範圍。雖然附帶的軟件不屬於開源許可範圍內,衍生開發的權利也受保留,不過這樣的透明度也顯示出 Apple 希望展現進一步參與 AI 開發社群的態度,與一貫封閉開發產品的態度截然不同。
來源:Apple