Google Cloud 首席科學家李飛飛:雲是實現人工智能普及化最大關鍵

包括科學家霍金在內的不少人都擔心人工智能會成為人類的威脅,但 Google 則希望人工智能可普及化成為人類工作、生活中的助手。在剛過去的 Cloud Next 2017 大會上,Google Cloud 首席科學家李飛飛就提出讓人工智能普及化(Democratizing AI),從此人工智能不只是在科幻故事裡出現。

 

「人工智能」和「機器學習」毫無懸念是今年 Google Cloud Next 2017 大會的主角。就像之前的專題裡提到,人工智能是 Google 推銷他們 Google Cloud Platform 的殺手鐧,為了趕上 AWS 和 Azure 的市場佔有率,Google 拿出很多自家的創新技術給 GCP 客戶使用,並祭出「普及人工智能」的口號來突出這一點。

事實上,人工智能這兩年成為最熱門科技話題,各家廠商都競相投入這領域,深怕在未來的人工智能大時代裡落後對手。人工智能當然不是什麼新事物,先不論在硬派科幻故事裡出現的虛構劇情,就算是挑戰西洋棋王的 IBM 超級電腦「深藍」也已經是 20 年前的事。

以前人工智能成本很高,開發困難、功能也有限,不像今天般彷彿無所不能。以前的困難在於演算法複雜、數據不足、運算能力不足,但來到今天很多問題都能透過雲端平台來解決,不僅雲運算租用成本低廉,像 Google 和 IBM 更提供了現成的機器學習 API 讓客戶直接採用,「普及人工智能」這一目標似乎不是天荒夜譚。

 

人工智能可改善人類不同生活和工作層面

Google Cloud 首席科學家李飛飛在首天的 Cloud Next 2017 大會壓軸出場,這位去年 11 月才獲邀加盟的史丹福大學終身教授是該大學人工智能實驗室主管,也是機器學習和人工智能領域的最具影響力的專家之一,曾參與 ImageNet 機器視覺的專案,開發利用深度學習技術來讓人工智能辨識圖像內容。

李飛飛現在領導 Google Cloud 新成立的人工智能和機器學習研究團隊。她在 Cloud Next 2017 大會上強調 Google 要把人工智能普及化,而 Google Cloud 平台就是實現這一點的工具(Google is democratizing AI, Cloud is the vehicle to deliver.),並表示作為研究人工智能的學者,「當看到 Google Cloud 平台的時候是很興奮的」。

李飛飛表示人工智能可改善人類不同生活和工作層面。她以「智能交通」為例,一台自動駕駛汽車僅僅只是讓乘客能更輕鬆地通勤,但如果是 1,000 台就會組成「車聯網」,大為減少地區的交通阻塞。但如果去到 100 萬台就不再只是一個城市的事,而是重新定義人類對交通運輸的認知了。

 

「運算」:雲是人工智能最理想的平台

她揚言要在四個領域上「普及人工智能」,也就是「運算」(Computing)、「演算法」(Algorithms)、「數據」(Data)和「人才」(Talent)。雲計算是普及人工智能的一大關鍵,如果要自組一台能做到機器學習的電腦設備,成本不菲,而且運算能力再強也得花上大量時間,而雲計算就成為突破這障礙的最佳途徑。

這就是第一個領域:「運算」(Computing)。李飛飛直指「雲是人工智能最理想的平台」,大規模集成運算資源、龐大數據容量、可靠穩定操作環境,都不是傳統運算方式能比擬的。就以在 Cloud Next 2017 站台的匯豐銀行為例,就是靠 Google Cloud 平台來處理每天龐大的交易數據,甚至利用人工智能協助找出可疑的黑錢流動。

HSBC 資訊科技總監 Darryl West 表示該公司的數據庫資料容量,在 2014 年時為 56PB,2015 年就成長到 77PB,去到 2016 年是更達到 93PB 規模。HSBC 逐步將數據搬到 GCP 上並利用 Google 的 BigQuery 大數據分析工具來處理金融大數據,更引入機器學習協助偵測洗黑錢活動,善用雲平台來實踐人工智能應用。

 

「演算法」:開放機器學習引擎減低企業入場門檻

第二個領域是「演算法」(Algorithms),畢竟並非所有企業都有足夠的人才,無法自行開發自家的機器學習演算法,如果要普及人工智能就需要提供方便易用的工具,減低企業採用的門檻。Google 就為 GCP 客戶開放多種不同的人工智能和機器學習工具,像新公布的 Video Intelligence API 就需要把影片放到 GCP 使用。

Google 為 Google Cloud Platform 客戶開放機器學習引擎 ML Engine,讓客戶能把自己的數據利用 TensoFlow 框架自行開發、訓練機器學習模型。如果不是自訂機器學習模型,Google 甚至已提供現成的機器學習 API 給客戶接入,包括自然語言識別、語音識別、文字翻譯、圖像分析和最新的影像分析等,企業直接就能採用。

要普及人工智能並非只是提供「工具」,而是「應用場景」。李飛飛就指 Video Intelligence API 可為新聞媒體創造價值。原本需要大量人手去標籤歸檔的影片,現在只需放到 GCP 就能自行分析片段有什麼內容,一搜就能找到需要的特定場景片段,這不僅是人手成本減省,而是重新改寫整個工作流程。

 

「數據」: Google 可供機器學習數據量驚人

第三個領域是「數據」(Data),機器學習背後需要大量的數據配合,但如何收集和共享數據一向是難題。李飛飛以自己在史丹福大學負責過的 ImageNet 專案為例,就擁有超過 1,500 萬筆圖像資料,透過分析大量圖像來讓機器學習引擎準確識別。Google 不僅在 GCP 上有海量數據,在不同 Google 服務也有大量數據可用於學習。

事實上為機器學習引擎提供數據未必就有私隱問題,因機器學習只把數據作為「教材」,並非把數據據為私用。比起單獨一家公司收集數據,不同數據來源可讓機器學習引擎變得更準確。舉例說 Gmail 的垃圾郵件過濾功能,就是從全球使用者處理垃圾郵件的行為中學習,Gmail 使用者規模愈大,判斷垃圾郵件的準確度也會愈高。

而這也是李飛飛認為 Google Cloud 是發展人工智能是理想環境的原因。Google 開放不同的機器學習引擎,使用者愈多也將使分析能力更加準確,加上 Google 搜尋引擎本身已索引了全球大量網上資源,配合 Google 各種免費服務的使用者,實際上 Google 可供機器學習的數據量無比驚人。

 

「人才」:收購數據科學家社群 Kaggle

最後則是「人才」(Talent)。站在台上的李飛飛本身,就已經是 Google 重視人工智能領域人才的具體表現,兩位最新加盟 Google Cloud 團隊的華裔女性科學家李飛飛和李嘉都是頂尖的人工智能專家。李飛飛在 Cloud Next 2017 大會上也正式確認,Google 收購了全球最大數據科學家社群和競賽平台 Kaggle

Kaggle 聚集了全球 80 多萬位數據科學家,每天都在實踐演算法、數據集等相關的技術和想法,Kaggle 也和 Google 多次聯合舉辦機器學習方面的比賽,網站在人工智能和機器學習領域的影響力很大。李飛飛雖然未有透露收購細節,但就已震撼了數據科學、人工智能等領域。

Kaggle 將保留獨立品牌和團隊,作為 Google Cloud 旗下的獨立品牌營運。由於 Kaggle 已是全球最大的數據科學家和機器學習開發者的社群,Google 的收購將加強雙方的合作,Google Cloud 可為 Kaggle 社群提供雲端機器學習設計環境和數據來源,長遠讓 Kaggle 成為支撐「普及人工智能」願景的支柱。

 

總結:未來更多生活問題將透過人工智能得到解決

也許在雲服務這領域 Google 暫時未必及得上競爭對手,但在人工智能和機器學習這一塊就相當有競爭力。要說人工智能威脅人類還言之尚早,反而人工智能作為人類協助角色的日子卻即將來臨。「普及人工智能」未必就是說人人都有一個機器人助理,但把人工智能用於處理人腦力不能及的運算就很快會出現。

普及人工智能的關鍵當然是更多應用的場景,這就得靠更多開發者積極開發配合,而背後亦需要進一步降低人工智慧開發門檻,讓更多相關應用為開發者社群、用戶與企業所用。當新技術的門檻降低後就會出現大量應用,更多生活問題會透過人工智能得到解決,也將開始更深刻地影響人們的生活。

 

 

作者:Boris Lee
Unwire.pro 資深編輯。在企業 IT 科技報道範疇有十多年經驗。