調查發現大量 AI 研究採用之數據標籤混亂

在人工智能的機器學習訓練而言，優質的數據集是製作有效模型的關鍵，不過有研究就發現，不少 AI 研究使用的數據標籤有相當多不一致的地方，令研究效率降低造成錯誤。

最近 Quantitative Science Studies 雜誌發表的一項研究中，諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和伯克利分校的研究人員對 AI 研究論文中遵循數據標記最佳實踐的情況進行調查，發現在很多研究之中，都沒有註明到底是誰進行數據標記，或者數據的來源。建立數據集的過程中容易發生人為錯誤，而導致在比較訓練進度時採用的數據集子集存在問題。

MIT 最近一個研究亦發現，用於訓練商用模型的數據集中存在幾千到幾百萬個錯誤標記，這些問題有機會導致研究人員最後選擇了劣質模型。研究呼籲人手加入的標記應該採用單一方案，而重複使用數據集的話也需要更加謹慎，避免偏見蔓延，確保最後訓練出來的模型不會存在相同問題。

來源：Venture Beat

—
新增 : unwire.pro Mewe 專頁 : https://mewe.com/p/unwirepro

調查發現大量 AI 研究採用之數據標籤混亂

疫情影響下辦公室需求下降　倉庫需求反升

去或留的問題

調查發現大量 AI 研究採用之數據標籤混亂

you might also like

軟銀聯手 Sony、Honda、NEC 成立日本 AI 國家隊 目標 2030 年萬億參數

憑 HBM 晶片單季利潤暴增 470% Samsung 挑戰全球最賺錢企業寶座

Google 面臨 AI 晶片荒挑戰：傳統巨頭如何應對 AI 原生初創競爭？

Anthropic 新推出 Claude Managed Agents 為企業免自建團隊下 AI 開發期由數月變數天

AI主導新軍備競賽：從美以伊衝突看軍民技術周期，香港如何提升格局層次

軟銀聯手 Sony、Honda、NEC 成立日本 AI 國家隊目標 2030 年萬億參數