顧問機構麥肯錫在 2018 年 9 月發表的研究,預期人工智能(AI)每年對生產力增幅達 1.2%,並在 2030 年帶動全球 GDP 增加 13 萬億美元。屆時,將有更多企業會採用這種科技,估計全球有七成公司在營運中有至少一項 Al 功能的技術。然而,當大家積極研發 AI 時,卻同時衍生了數據偏頗的問題。
其實,數據偏頗早已發生,妨礙 AI 發展。2014 年美國一個有關過去 20 年癌症死亡的研究,被發現數據只集中在白人男性,以致有黑人患癌死亡率明顯偏高的不當結論。多倫多有一間初創專以 Al 結合聽力評估腦退化、柏金遜症等神經疾病,但其技術只適用於以英文為母語,並帶加拿大口音的人士,其他不諳英語的外國人在進行測試時,便會因為反應遲緩或回答不善,而被誤會為有病徵,評估結果令人質疑。
從上述的例子,不難看見偏頗的數據背後,著實代表了某些價值觀。著名華裔 AI 科學家李飛飛也指出,「沒有真正獨立的機器價值,機器價值就是人類價值」。
為糾正數據偏頗的問題,越來越多人要求數據多元化。美國食品藥品監管局(FDA)在 2018 年 4 月首次批准一個 Al 醫療設備應市,用以偵測糖尿引發的眼疾,而研發該設備的初創在回應傳媒查詢時,也承諾會密切注意數據是否多元,相信可進一步喚起學術界、政商界和社會人士的關注。毫無疑問,人工智能的發展已銳不可擋,如何能夠把數據偏頗,以及黑箱思維等問題撥亂返正,將會是科技界的一項重要議題。
作者:香港大學建築學院及工程學院計算機科學系客席教授鄧淑明