除了大型雲端運算平台,在本機執行大型語言模型的需要也日漸增加,不過在消費者級數的產品上要順暢地執行這些模型有一定難度。最近 Exo Labs 就成功連接了幾部 M4 晶片的 Mac 電腦成為運算叢集,執行了大型語言模型。
Exo Labs 創辦人 Alex Cheema 表示,他連接了四部 Mac Mini M4 和一部 Macbook Pro M4 Max 成為運算叢集,成功執行了阿里巴巴的 Qwen 2.5 Coder-32B 模型。這套系統總價值約 5,000 美元,比單一 NVidia H100 GPU 的 25,000 至 30,000 美元售價,有着相當大的成本優勢。Cheema 指出,在本地運行 AI 模型不僅能節省成本,更能確保私隱和安全,無需依賴網路連線。
根據 Exo Labs 分享的數據,其 Apple M4 叢集可以以每秒 18 個 tokens 的速度運行 Qwen 2.5 Coder 32B,以每秒 8 個 tokens 的速度運行 Nemotron-70B。此外,兩部 Macbook Pro M3 的組合也能以每秒超過 5 個 tokens 的速度運行 Llama 3.1-405B 模型。Exo Labs 計劃下星期推出免費的基準測試網站,提供單一裝置和多裝置配置的詳細比較,協助用戶根據需求和預算選擇最佳解決方案。
來源:VentureBeat