每次有人談論甚麼是 Big Data,幾乎都有人會引述這一名句。業界人人都在談 Big Data,媒體也在天天報導,於是人人都相信不能不搞 Big Data ── 不過怎麼搞,卻不是很多人在提。其實數據挖掘、商業智能並非新鮮事物,Big Data 只是更大規模地進行,而且原理更可以簡單得,連一個普通大學生都做得到。今期專訪了由香港專業教育學院幾位年青學生和講師組成的 Data-HK 團隊,讓讀者了解一下甚麼是真正的 Big Data。
“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.”── Dan Ariely.
大數據分析人人都做得到
數據爆發增長、零散數據、即時數據分析、社交輿情收集、垃圾數據……關乎 Big Data 的報導,幾乎都會涉及很多科技名詞,很多人都產生一種印象,就是 Big Data 是很高深的科技,而且投資很大、很難用。但這種觀念完全是錯的,透過簡單工具收集網路上的免費數據,把數據整合為有價值的數據庫作綜合分析,分析亦只需從 Amazon 租用運算能力,實際用到的資金可能連一千港元都不到!
匪夷所思?其實不然。如果不是有實際活生生案例在前,筆者可能還有疑惑,但當香港專業教育學院(李惠利)分校的黃俊彦講師和一班 IVE 同學,實際向筆者展示他們的 Big Data 應用專案時,卻又不得不承認 Big Data 並不是大家想像中那麼複雜。「其實數據全部都是公開的,統計的方法也簡單得很,一直只是沒人去做,或是沒法大規模去做。有了 Amazon Web Services(AWS)後,其實人人都做得到!」黃俊彦說。
統計 IT 招聘廣告關鍵字
曾任職於某大招聘網站的黃俊彦講師,來到 IVE 教書後仍然關心 IT 就業的問題。「IVE 不同於一般大學,很強調學生畢業後能否立即投入業界工作,很看重畢業學生的就業率。如果教一些他們根本用不著,或是市場上沒有僱主有興趣的技能,只是浪費學生時間,所以我們一定要清楚僱主想找哪些技術專才,哪種技術之間的配合最受僱主歡迎,然後按此來編排教學計劃。」他說。
因為有如此實際的要求,因此黃俊彦用 Big Data 來研究 IT 就業市場。他用簡單的程式語言編寫了一套軟件,原理跟 Google 的網路蜘蛛差不多,在香港各大主流招聘網站自動模擬人手點擊,再機械讀取所有 IT 工種的招聘廣告,收集所有出現過的名詞。收集到的資料會放到數據庫中量化分析,從而分析 IT 就業市場現況。
量化分析原理簡單
「其實只是很簡單的計算數目而已,招聘網站全部是公開的,只是無人會走去逐個廣告計數。我可以答到你,有多少工作需要 JAVA、多少需要在中環上班、多少需要大學證書。原來大多數的 IT 工作都要識 JAVA,你能有客觀答案向學生證明要學 JAVA,而不是空口叫他們『不能不學』。而且還可以交叉分析,除了 JAVA 你還要學甚麼?舉個例子,原來招聘 App 開發的公司,一般都會同時要求應職者懂得開發手機網頁。如果你只教學生寫 App 卻不教他寫網頁,那不是害苦他了嗎?」黃俊彦說。
黃俊彦指出,Big Data 只是巨大規模的數據分析工作而已,說穿了就跟以前做數據分析無大分別,分別只在規模大得太多,一般人就算想分析都無辦法。以該 IT 就業分析的專案為例,兩年來收集分析的招聘廣告數量多達數十萬則,平均每 3 小時更新一次。如果靠人手去做,根本就不可能,但原理卻絕不複雜──只是數關鍵字出現過多少次罷了。
運算時間是實際關鍵
傳統統計學往往要靠隨機收集一定數量的樣本,再以此數字投映放大來得出統計結果,實際準確與否其實也難以證明。而 Big Data 卻令統計數據不再只是實驗室數字,而是真正血淋淋的實際數據。因為數據非常貼近真實,因此用以分析趨勢也更加準確,但衍生的新問題反而已不在於準確性,而是運算時間。
Big Data 著眼的是短期的準確分析,如果分析時間超出時效,那根本無實際意義。黃俊彦以天氣預測為例,只要天文台掌握到所有氣象數據,要準確預測明天的天氣其實不會太難,但問題是如果要用 10 天時間才能以現有的運算資源得出明天的天氣預測,那根本就毫無意義。Big Data 的問題除了在於數據量,用多少時間資源運算也是很重要的,而這問題的答案就是「平行運算」。
平行運算攤分運算時間
「我敢說,如果沒有『雲端運算』技術,Big Data 分析的概念也根本不存在!」黃俊彦指出,不是沒有人想過統計所有數據去做分析,但以過去的電腦技術去做的話,也只有超級電腦才做得到,成本太驚人,根本就不切實際。而「平行運算」技術的出現,就令超級電腦變得普及化,而像 AWS 這種按需的雲端運算服務,更令 Big Data 分析完全平民化,任何人都做得到。
平行運算的概念是,如果一個運算工作用一部電腦要用 100 小時才能完成,那改用 100 部電腦一齊做,就可以用 1 小時便能完成。套回天氣預報的例子,如果要用 10 天時間才能分析到明天的天氣,那就用 10 部電腦去分析好了,準確預測明天天氣也變得可能。
Big Data 分析入場費:120 元
假如一個超級電腦等同 100 台普通電腦,那 100 台電腦的成本卻肯定比一台超級電腦來得便宜。可能有讀者會問,添購 100 台電腦的成本同樣不菲,為了一個運算工作而買 100 台電腦也一樣是不切實際。而這就是為何說像 AWS 這類 IaaS 運算能力按需供應商,是實現 Big Data 普及化的重要推手。
黃俊彦表示,Data-HK 收集香港政府在 Data One 上開放的各種開放數據,數據量龐大得嚇怕人,每日的數據多達 2GB。「免費把數據給你用又如何?給你 100TB 的數據,你根本也無從入手做分析。我們試過用一部值 5 萬元、現行運算能力已是高水平的電腦去做分析,但根本唔夠記憶體去運行!最後改為在 AWS 架立一個平台去做,250GB 記憶體、80 粒 CPU,結果只需兩小時便完成分析,成本卻只是 120 元!」
大數據是大衛手中石塊
數據是公開的,運算能力的入場費也便宜得一般人也負擔得起,那 Big Data 的實行能力已得到確認,反而拿來分析甚麼事會比較有意義,就是想搞 Big Data 分析的人該要思考的。其實並不是大公司大機構才需要 Big Data 去協助發展,事實上中小機構只要能掌握 Big Data,隨時可以做《聖經》中打倒巨人歌利亞的大衛。
Data-HK 其中一個專案就是分析香港中學文憑試的英文考試。這個專案已制作了一個免費的手機應用,大家上 App Store 和 Google Play Store 都下載得到。專案做的事其實很簡單,就是集合 22 年來會考、A Level 和 DSE 文憑試的英文科公開試試卷,以自然語言分析技術,計算出一個常用字庫。
「有些人以為英文科要考得好,需要背誦很多英文生字,但其實根本不是。你可以試著去問任何一個坊間的補習天王,看他們誰可以答到你,哪一個英文生字出現最多?Be 的哪一個形態出現得最多?是過去式還是現在式?他們答不到,但我答得到!原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。
大數據是中小企的競爭力來源
從這實際案例來看,你會發現任何一個普通的英文科老師,都可以有比得上英文科補習天王的競爭力。以前要靠經驗,甚至可能是內幕渠道才能預測到今年的試題,但用 Big Data 卻任何人都有機會預測得到。如果你是一家小型補習社卻掌握了數據,當然有更大機會打贏大補習社,如果套用到任何一門行業也同樣有機會出現打倒巨人的大衛。
「以前可能只有大機構才有這樣的運算能力,他們自然可以用這樣的數據分析優勢來保持壟斷優勢。但當平行運算出現後,人人都有條件搞 Big Data 分析。用一部電腦,單是分析一份試卷都要用上幾小時,但用 AWS 就兩小時已經完成 22 年所有試卷的分析。問題只在於機構是否想得到怎樣去做,要分析甚麼數據而已。」黃俊彦說。
非公開數據才是真正關鍵
看到這兒,相信很多人都躍躍欲試。是的,Big Data 原來可以很簡單,但前題是你能掌握到有價值的數據,與及有基本的 IT 技術去做分析。Big Data 其中一個實際難題是數據非常零散,你要懂得在哪兒找到你想要的數據,才有可能做到分析。舉個例子,原來藍鰭吞拿魚只在大西洋和地中海出現,如果你在印度洋裡找便很難找得到,如果你要找美人魚更可能完全找不到,因為不存在的東西永遠都不存在。
換言之,如果你要搞 Big Data 分析,首先你要確定在哪兒能得到你想要的數據。舉個實例,Data-HK 的 IT 工種分析專案,就只能分析 IT 工作需要的技能,但如果你想知道「IT 創業需要甚麼技能」,你是不能在其中得到真實答案的。黃俊彦表示,如果風險投資者能夠公開他們收過的計劃書,他便能用同一招式計算計劃書出現過的關鍵字,為學生給出「IT 創業趨勢報告」,但問題正在於這些數據不是公開的。
數據是內功、技術是招式
掌握到多少屬於自己擁有的數據,並能把它們作有效的分析,就是未來機構以 Big Data 增加競爭力時的關鍵所在。公開的數據誰人也能做分析,但機構內部數據卻是只限機構自己才能分析。而這正是為何說,掌握愈多數據便愈有競爭力。
數據多寡就像武俠小說世界的「內功」,你有多少數據就有多少內力。而 IT 技術就是「武功招式」,你要懂得編寫一套系統去收集有用數據,寫一套系統去分開數據做平行運算和綜合結果。武林高手總不能每次都借人內力,整理收集屬於自己的數據庫自然刻不容緩。反而技術層面不難解決,除了聘請具有 Big Data 視野的開發人才外,坊間也有不同方案針對 Big Data 分析市場,但是否能滿足機構的期望倒是看各自的實際情況了。