close
人工智能

Meta 研究指硬體故障會造成 AI 輸出錯誤

生成式 AI 雖然強勁,但偶爾會出現奇怪的輸出,而開發商也一直希望可以找出問題所在予以解決。Meta 近日就發表研究報告指出,硬體故障也是其中一個導致 AI 系統產生錯誤或低品質輸出的原因。

Meta 的報告指,這種被稱為「靜默數據損壞」(SDC)的現象,可能會在 AI 推理過程中扭曲模型參數,從而影響輸出結果的準確性和可靠性。Meta 強調,隨著 AI 硬體系統日益複雜和異質化,這些模型更容易受到硬體故障的影響。

為了量化 AI 模型對參數損壞的脆弱性,Meta 提出了「參數脆弱性因子」(PVF)指標。PVF 概念是建立在去年由英特爾和密歇根大學研究人員提出的架構脆弱性因子(AVF)基礎之上,可適用於不同的硬體故障模型,並可根據不同的模型和任務進行調整。研究人員認為,PVF 不僅可以評估參數損壞對模型推理的影響,還可以擴展到訓練階段,評估參數損壞對模型收斂能力的影響。

Meta 使用其自訂內容推薦工具 DLRM 進行了模擬實驗。結果顯示,在某些情況下,只是位元翻轉 (Bit Flip) 就可能導致每 1,000 次推理中有 4 次出現錯誤,如果有其他問題影響則會更加嚴重。因此研究認為,硬體故障對 AI 系統性能有着潛在影響,而在 AI 系統營運和硬體設計上,也需要在故障保護與性能效率之間尋求平衡。

來源:The Register

Tags : Meta
Antony Shum

The author Antony Shum