close
人工智能

Sony AI 推出全球首個道德數據集 揭示主流 AI 模型全面存在歧視問題

 

Sony AI 於 11 月 5 日正式發佈 Fair Human-Centric Image Benchmark (FHIBE) 數據集,FHIBE 收錄超過 10,318 張經同意授權的影像,涵蓋來自 81 個國家及地區共 1,981 名受試者,成為首個公開、全球多元化且基於同意機制的電腦視覺公平性評估數據集。

數據集中每張影像均附有詳盡標註資訊,包括人口統計特徵、物理屬性、環境因素及相機設定等數據。研究團隊運用 FHIBE 對現有電腦視覺模型進行測試,結果顯示所有受測的大型語言模型均未能通過全部公平性檢驗,證實 AI 影像辨識系統的歧視問題確實存在且相當普遍。Sony AI 全球人工智能治理主管 Alice Xiang 領導的研究團隊,將相關研究成果刊登於《自然》期刊,突顯此項目在學術界的重要性。

 

AI 偏見普遍存在 歧視演算法引發實際傷害

測試過程中發現多項關鍵問題,部分模型對使用「她/她的」代名詞的個體準確度較低,研究人員追溯發現該偏差源於髮型變化較大,而這項因素過去在公平性研究中一直遭到忽視。當系統接收到關於受試者職業的中性問題時,某些模型會強化刻板印象,特別針對特定代名詞及祖籍群體,將受試者描述為性工作者、毒販或竊賊。研究顯示,當詢問個人犯罪行為時,模型對非洲或亞洲血統、深色膚色以及使用「他/他的」代名詞的個體,產生有害回應的比率明顯較高。

電腦視覺偏見問題並非新議題,卻長期缺乏有效解決方案。2024 年聯合國教科文組織研究發現,主要大型語言模型將女性與「家庭」及「家人」關聯的頻率,較男性高出 4 倍,同時不成比例地將男性姓名與「商業」、「職業」及「高階主管」角色連結。華盛頓大學 2024 年研究測試履歷篩選 AI 工具時,研究人員提供除姓名外完全相同的履歷,測試結果顯示 AI 模型在 85% 的情況下偏好白人姓名,僅 9% 偏好黑人姓名,同時展現出偏好男性姓名勝過女性姓名的傾向。

歧視性演算法已在多個產業引發實際傷害,2025 年 5 月,美國北加州聯邦地區法院在 Mobley v. Workday, Inc. 案件中,批准進行集體訴訟,原告 Derek Mobley 等 5 名 40 歲以上求職者指控 Workday 的 AI 求職篩選系統存在年齡歧視。法院認定 Workday 的 AI 軟件參與聘僱決策過程,其偏見構成可訴訟的歧視主張,並警告若區分軟件決策者與人類決策者,可能在現代完全架空反歧視法律。2024 年,SafeRent 因其演算法對黑人及西班牙裔申請人造成差別影響,同意支付超過 200 萬美元(約港幣 1,560 萬元)和解該訴訟案。

 

FHIBE 獨特之處:首個基於道德採集的數據集

FHIBE 項目的獨特之處在於其道德數據採集方法,Xiang 表示,絕大多數電腦視覺基準數據集在未經同意的情況下收集,部分雖然取得同意但提供的同意程序資訊甚少,缺乏全球多樣性,且不適用於各類電腦視覺任務。研究發表於《自然》期刊的論文指出,在評估的 27 個電腦視覺數據集中,大多數從網絡平台抓取或衍生自抓取的數據集,其中 7 個知名數據集已被作者撤回且不再公開提供。

FHIBE 嚴格規定僅可用於公平性及偏見評估目的,除偏見緩解工具的訓練外,不得用於其他訓練用途。所有數據集參與者均獲得知情且可撤銷的同意,數據收集符合數據保護法規設計,所有影像受試者、標註人員及品質審查人員均獲得當地最低工資或以上的公平報酬。數據集設計可隨時間負責任地演進,數據受試者保留對個人資料的控制權,可隨時撤回同意且不影響其已獲得的報酬。

 

企業應用與技術細節:建立系統性偏見檢測

企業應如何運用 FHIBE 改善 AI 系統公平性?第一步是建立系統性的偏見檢測流程。FHIBE 能夠突顯 AI 在識別人物或標記影像時出現錯誤的位置,顯示髮型或光線等細節如何影響 AI 對特定群體的辨識準確度。企業可藉此在 AI 工具推向市場前發現並修正問題。

FHIBE 因其基於同意且全球多樣化的特性,特別適合用於強化廣告、影像生成及受眾鎖定等電腦視覺工具。仰賴 AI 分析影像、細分受眾及創建視覺內容的行銷人員,可以倚靠 FHIBE 提供經過驗證、偏見測試的基礎,節省稽核時間並降低不公平或不準確結果的風險。

Sony Group 旗下業務部門已將 FHIBE 應用於公平性評估,作為更廣泛 AI 倫理審查流程的一部分,以符合 Sony Group AI 倫理準則。企業若採用類似做法,可在產品開發階段即納入公平性考量,減少日後可能面臨的法律及聲譽風險。

技術層面上,FHIBE 提供 2D 關鍵點標註,捕捉人體及面部的幾何結構,數據集包含 33 個關鍵點,定位主要地標如右眼內角、鼻子、右髖及左腳趾等。FHIBE 透過提供精確座標的邊界框,支援面部偵測及人物偵測模型的評估,這些標註允許在影像中準確定位人體及面部。數據集提供像素級標註,將人體及面部劃分為 28 個不同的分割類別,例如面部皮膚、口腔內部等,以評估分割模型。

 

行業趨勢與挑戰:「數據虛無主義」待解

產業趨勢顯示,AI 公平性將成為企業競爭力的關鍵指標。Xiang 指出,歐盟 AI 法案及美國部分州的 AI 法規,在某些高風險領域激勵或要求進行偏見評估。2024 年歐盟 AI 法案是全球首個全面性的 AI 監管立法,從 2025 年開始,該法案等法律將推動企業確保系統的透明度、公平性及資料私隱。遵守此類標準除了是法律問題,更是與公眾建立信任的關鍵。

Xiang 特別強調「數據虛無主義」問題。她所指的「數據虛無主義」,是指產業界認為 AI 開發所需數據無法透過同意及補償方式取得,若要獲得尖端 AI 技術,就必須放棄這些數據權利。FHIBE 雖因規模問題 (FHIBE 是小型評估數據集而非大型訓練數據集) 未能完全解決此問題,但其目標之一是激勵研發社群及產業對道德數據策劃投入更多關注及資金。Xiang 表示,這是極其重要的問題,可說是目前 AI 領域最大的問題之一,但相較於演算法層面,數據層面的創新獲得的關注少得多。

企業在採用 AI 電腦視覺技術時,應將公平性測試納入標準作業流程。史丹佛大學 CRFM 的語言模型整體評估 (HELM) 計劃及 MLCommons 的 AILuminate 工具套件等第三方基準測試,提供全面基準來評估公司 AI 系統的公平性、問責性、透明度及更廣泛的社會影響。然而調查顯示,僅 39% 的高階主管使用基準測試來評估其 AI 系統,顯示產業在這方面仍有很大改進空間。

 

未來展望:公平性成 AI 核心競爭力

未來展望方面,電腦視覺技術持續快速發展,公平性議題的重要性只會與日俱增。生成式 AI 將在 2025 年於娛樂、醫療、科學研究等多個領域發揮關鍵作用。視覺轉換器 (Vision Transformers) 在許多基準測試中已超越卷積神經網路 (CNN),其效率持續提升,提供優於 CNN 的更佳可擴展性及適應性,適用於醫學影像、自動駕駛車輛及工業自動化等各種先進高精度電腦視覺應用。

隨著電腦視覺技術日益應用於公共場所,私隱保護措施將受到更大重視。企業必須在創新與倫理之間取得平衡,確保技術發展不會犧牲公平性與包容性。FHIBE 的推出證明,道德、多元及公平的數據收集是可行的,企業應以此為標準,重新檢視其 AI 開發流程。

Xiang 在社交媒體貼文中表示,FHIBE 除了讓開發人員能夠稽核其 AI 系統的偏見外,也證明在道德數據收集方面實施最佳實務是可行的,特別是在同意及數據權利持有人補償方面。在 AI 領域數據虛無主義日益普遍的時代,FHIBE 致力於提升整個產業道德數據收集的標準。

企業若希望在 AI 競爭中保持優勢,必須將公平性視為核心競爭力而非合規負擔。採用類似 FHIBE 的評估工具,建立透明的測試機制,並在產品開發初期即納入多元性考量,將有助於企業建立更值得信賴的 AI 系統,同時避免潛在的法律訴訟及品牌形象損害。

 

來源:Sony AI

Tags : BenchmarkEthicsSony AI