由於所收集的真實數據未必可全面反映現況,合成數據則可減少偏差,同時也可就罕見情況提供更多樣的數據,彌補難以從現實中獲得這些資訊的問題,而且其靈活性高,可以是文本、媒體(片段、圖像、聲音)和列表。有估計,它的成本僅為真實數據的1%,所以吸引了不少企業加以應用。
目前,已有多個行業使用合成數據,如據報美國運通兩年前已開始測試以深偽技術(Deepfake)片段和虛假數據如信用卡交易,提升AI演算法辨識詐騙行為的能力。摩根大通除了用合成數據來反洗黑錢外,也以此開發創新產品和服務,尤其真實的歷史數據未必可滿足需要,合成數據則能大派用場。
在醫療領域方面,瑞士藥廠羅氏(Roche)與初創合作,在臨床研究中使用合成醫學數據,代替患者數據,以提高分析能力。德國的夏里特醫學院醫學人工智能實驗室(CLAIM)研究中風,指每個患者的大腦結構都有其獨特之處,匿名化圖像意義不大,因此致力開發合成數據。
過去兩年來,Alphabet旗下的自動駕駛公司Waymo團隊一直以合成數據,生成逼真的駕駛數據集,包括繁忙的城市街道、高速多車的道路和混亂的停車場,或者通過調節迎面而至的車輛速度,來衡量Waymo的反應。
不過,合成數據還是個新興產業,較適合用於相對直接的問題,如欺詐檢測或信用評分,但一遇上複雜多變的情況,又或需要精準真實的數據作規劃時,它便難於應付,還須各界共同努力尋找方案,以探索其更多的可能性。
撰文:香港大學工程學院計算機科學系、社會科學學院地理系及建築學院客席教授鄧淑明博士