close

數碼時代(十二)：合成數據的無限可能

科技專欄 by Columnist on 23 四月, 2023

隨著近年多地相繼收緊保護私隱政策，不會違反個人私隱條例的人工合成數據（Synthetic Data）越來越受到重視。

由於所收集的真實數據未必可全面反映現況，合成數據則可減少偏差，同時也可就罕見情況提供更多樣的數據，彌補難以從現實中獲得這些資訊的問題，而且其靈活性高，可以是文本、媒體（片段、圖像、聲音）和列表。有估計，它的成本僅為真實數據的1%，所以吸引了不少企業加以應用。

目前，已有多個行業使用合成數據，如據報美國運通兩年前已開始測試以深偽技術（Deepfake）片段和虛假數據如信用卡交易，提升AI演算法辨識詐騙行為的能力。摩根大通除了用合成數據來反洗黑錢外，也以此開發創新產品和服務，尤其真實的歷史數據未必可滿足需要，合成數據則能大派用場。

在醫療領域方面，瑞士藥廠羅氏（Roche）與初創合作，在臨床研究中使用合成醫學數據，代替患者數據，以提高分析能力。德國的夏里特醫學院醫學人工智能實驗室（CLAIM）研究中風，指每個患者的大腦結構都有其獨特之處，匿名化圖像意義不大，因此致力開發合成數據。

過去兩年來，Alphabet旗下的自動駕駛公司Waymo團隊一直以合成數據，生成逼真的駕駛數據集，包括繁忙的城市街道、高速多車的道路和混亂的停車場，或者通過調節迎面而至的車輛速度，來衡量Waymo的反應。

不過，合成數據還是個新興產業，較適合用於相對直接的問題，如欺詐檢測或信用評分，但一遇上複雜多變的情況，又或需要精準真實的數據作規劃時，它便難於應付，還須各界共同努力尋找方案，以探索其更多的可能性。

撰文：香港大學工程學院計算機科學系、社會科學學院地理系及建築學院客席教授鄧淑明博士

Tags : Synthetic Data