調查發現大量 AI 研究採用之數據標籤混亂

在人工智能的機器學習訓練而言,優質的數據集是製作有效模型的關鍵,不過有研究就發現,不少 AI 研究使用的數據標籤有相當多不一致的地方,令研究效率降低造成錯誤。

最近 Quantitative Science Studies 雜誌發表的一項研究中,諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和伯克利分校的研究人員對 AI 研究論文中遵循數據標記最佳實踐的情況進行調查,發現在很多研究之中,都沒有註明到底是誰進行數據標記,或者數據的來源。建立數據集的過程中容易發生人為錯誤,而導致在比較訓練進度時採用的數據集子集存在問題。

MIT 最近一個研究亦發現,用於訓練商用模型的數據集中存在幾千到幾百萬個錯誤標記,這些問題有機會導致研究人員最後選擇了劣質模型。研究呼籲人手加入的標記應該採用單一方案,而重複使用數據集的話也需要更加謹慎,避免偏見蔓延,確保最後訓練出來的模型不會存在相同問題。

來源:Venture Beat


新增 : unwire.pro Mewe 專頁 : https://mewe.com/p/unwirepro