調查發現大量 AI 研究採用之數據標籤混亂

在人工智能的機器學習訓練而言，優質的數據集是製作有效模型的關鍵，不過有研究就發現，不少 AI 研究使用的數據標籤有相當多不一致的地方，令研究效率降低造成錯誤。

最近 Quantitative Science Studies 雜誌發表的一項研究中，諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和伯克利分校的研究人員對 AI 研究論文中遵循數據標記最佳實踐的情況進行調查，發現在很多研究之中，都沒有註明到底是誰進行數據標記，或者數據的來源。建立數據集的過程中容易發生人為錯誤，而導致在比較訓練進度時採用的數據集子集存在問題。

MIT 最近一個研究亦發現，用於訓練商用模型的數據集中存在幾千到幾百萬個錯誤標記，這些問題有機會導致研究人員最後選擇了劣質模型。研究呼籲人手加入的標記應該採用單一方案，而重複使用數據集的話也需要更加謹慎，避免偏見蔓延，確保最後訓練出來的模型不會存在相同問題。

來源：Venture Beat

—
新增 : unwire.pro Mewe 專頁 : https://mewe.com/p/unwirepro