大數據分析成本只需 120 元？ 10 分鐘即學懂 Big Data！

每次有人談論甚麼是 Big Data，幾乎都有人會引述這一名句。業界人人都在談 Big Data，媒體也在天天報導，於是人人都相信不能不搞 Big Data ── 不過怎麼搞，卻不是很多人在提。其實數據挖掘、商業智能並非新鮮事物，Big Data 只是更大規模地進行，而且原理更可以簡單得，連一個普通大學生都做得到。今期專訪了由香港專業教育學院幾位年青學生和講師組成的 Data-HK 團隊，讓讀者了解一下甚麼是真正的 Big Data。

unwire001 — Data-HK 是由一班 IVE 學生組成的團隊，黃俊彦講師（藍衣）則是他們的顧問。

“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.”── Dan Ariely.

大數據分析人人都做得到

數據爆發增長、零散數據、即時數據分析、社交輿情收集、垃圾數據……關乎 Big Data 的報導，幾乎都會涉及很多科技名詞，很多人都產生一種印象，就是 Big Data 是很高深的科技，而且投資很大、很難用。但這種觀念完全是錯的，透過簡單工具收集網路上的免費數據，把數據整合為有價值的數據庫作綜合分析，分析亦只需從 Amazon 租用運算能力，實際用到的資金可能連一千港元都不到！

匪夷所思？其實不然。如果不是有實際活生生案例在前，筆者可能還有疑惑，但當香港專業教育學院（李惠利）分校的黃俊彦講師和一班 IVE 同學，實際向筆者展示他們的 Big Data 應用專案時，卻又不得不承認 Big Data 並不是大家想像中那麼複雜。「其實數據全部都是公開的，統計的方法也簡單得很，一直只是沒人去做，或是沒法大規模去做。有了 Amazon Web Services（AWS）後，其實人人都做得到！」黃俊彦說。

統計 IT 招聘廣告關鍵字

曾任職於某大招聘網站的黃俊彦講師，來到 IVE 教書後仍然關心 IT 就業的問題。「IVE 不同於一般大學，很強調學生畢業後能否立即投入業界工作，很看重畢業學生的就業率。如果教一些他們根本用不著，或是市場上沒有僱主有興趣的技能，只是浪費學生時間，所以我們一定要清楚僱主想找哪些技術專才，哪種技術之間的配合最受僱主歡迎，然後按此來編排教學計劃。」他說。

因為有如此實際的要求，因此黃俊彦用 Big Data 來研究 IT 就業市場。他用簡單的程式語言編寫了一套軟件，原理跟 Google 的網路蜘蛛差不多，在香港各大主流招聘網站自動模擬人手點擊，再機械讀取所有 IT 工種的招聘廣告，收集所有出現過的名詞。收集到的資料會放到數據庫中量化分析，從而分析 IT 就業市場現況。

unwire005 — IVE 和黃俊彦講師開發的香港 IT 工廣告數據挖掘報告，可交叉分析各種招聘條件，協助學生就業。

量化分析原理簡單

「其實只是很簡單的計算數目而已，招聘網站全部是公開的，只是無人會走去逐個廣告計數。我可以答到你，有多少工作需要 JAVA、多少需要在中環上班、多少需要大學證書。原來大多數的 IT 工作都要識 JAVA，你能有客觀答案向學生證明要學 JAVA，而不是空口叫他們『不能不學』。而且還可以交叉分析，除了 JAVA 你還要學甚麼？舉個例子，原來招聘 App 開發的公司，一般都會同時要求應職者懂得開發手機網頁。如果你只教學生寫 App 卻不教他寫網頁，那不是害苦他了嗎？」黃俊彦說。

黃俊彦指出，Big Data 只是巨大規模的數據分析工作而已，說穿了就跟以前做數據分析無大分別，分別只在規模大得太多，一般人就算想分析都無辦法。以該 IT 就業分析的專案為例，兩年來收集分析的招聘廣告數量多達數十萬則，平均每 3 小時更新一次。如果靠人手去做，根本就不可能，但原理卻絕不複雜──只是數關鍵字出現過多少次罷了。

運算時間是實際關鍵

傳統統計學往往要靠隨機收集一定數量的樣本，再以此數字投映放大來得出統計結果，實際準確與否其實也難以證明。而 Big Data 卻令統計數據不再只是實驗室數字，而是真正血淋淋的實際數據。因為數據非常貼近真實，因此用以分析趨勢也更加準確，但衍生的新問題反而已不在於準確性，而是運算時間。

Big Data 著眼的是短期的準確分析，如果分析時間超出時效，那根本無實際意義。黃俊彦以天氣預測為例，只要天文台掌握到所有氣象數據，要準確預測明天的天氣其實不會太難，但問題是如果要用 10 天時間才能以現有的運算資源得出明天的天氣預測，那根本就毫無意義。Big Data 的問題除了在於數據量，用多少時間資源運算也是很重要的，而這問題的答案就是「平行運算」。

unwire006 — 黃俊彦以天氣預測為例，如果要用 10 天時間才能得出明天的天氣預測，那根本就毫無意義。

平行運算攤分運算時間

「我敢說，如果沒有『雲端運算』技術，Big Data 分析的概念也根本不存在！」黃俊彦指出，不是沒有人想過統計所有數據去做分析，但以過去的電腦技術去做的話，也只有超級電腦才做得到，成本太驚人，根本就不切實際。而「平行運算」技術的出現，就令超級電腦變得普及化，而像 AWS 這種按需的雲端運算服務，更令 Big Data 分析完全平民化，任何人都做得到。

平行運算的概念是，如果一個運算工作用一部電腦要用 100 小時才能完成，那改用 100 部電腦一齊做，就可以用 1 小時便能完成。套回天氣預報的例子，如果要用 10 天時間才能分析到明天的天氣，那就用 10 部電腦去分析好了，準確預測明天天氣也變得可能。

Big Data 分析入場費：120 元

假如一個超級電腦等同 100 台普通電腦，那 100 台電腦的成本卻肯定比一台超級電腦來得便宜。可能有讀者會問，添購 100 台電腦的成本同樣不菲，為了一個運算工作而買 100 台電腦也一樣是不切實際。而這就是為何說像 AWS 這類 IaaS 運算能力按需供應商，是實現 Big Data 普及化的重要推手。

黃俊彦表示，Data-HK 收集香港政府在 Data One 上開放的各種開放數據，數據量龐大得嚇怕人，每日的數據多達 2GB。「免費把數據給你用又如何？給你 100TB 的數據，你根本也無從入手做分析。我們試過用一部值 5 萬元、現行運算能力已是高水平的電腦去做分析，但根本唔夠記憶體去運行！最後改為在 AWS 架立一個平台去做，250GB 記憶體、80 粒 CPU，結果只需兩小時便完成分析，成本卻只是 120 元！」

3183272133_ba11674ee7_z — 黃俊彦認為，AWS 的出現是令 Big Data 分析能普及化的重要關鍵。

大數據是大衛手中石塊

數據是公開的，運算能力的入場費也便宜得一般人也負擔得起，那 Big Data 的實行能力已得到確認，反而拿來分析甚麼事會比較有意義，就是想搞 Big Data 分析的人該要思考的。其實並不是大公司大機構才需要 Big Data 去協助發展，事實上中小機構只要能掌握 Big Data，隨時可以做《聖經》中打倒巨人歌利亞的大衛。

Data-HK 其中一個專案就是分析香港中學文憑試的英文考試。這個專案已制作了一個免費的手機應用，大家上 App Store 和 Google Play Store 都下載得到。專案做的事其實很簡單，就是集合 22 年來會考、A Level 和 DSE 文憑試的英文科公開試試卷，以自然語言分析技術，計算出一個常用字庫。

「有些人以為英文科要考得好，需要背誦很多英文生字，但其實根本不是。你可以試著去問任何一個坊間的補習天王，看他們誰可以答到你，哪一個英文生字出現最多？Be 的哪一個形態出現得最多？是過去式還是現在式？他們答不到，但我答得到！原來只要掌握好日常字庫的出現形態，比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。

大數據是中小企的競爭力來源

從這實際案例來看，你會發現任何一個普通的英文科老師，都可以有比得上英文科補習天王的競爭力。以前要靠經驗，甚至可能是內幕渠道才能預測到今年的試題，但用 Big Data 卻任何人都有機會預測得到。如果你是一家小型補習社卻掌握了數據，當然有更大機會打贏大補習社，如果套用到任何一門行業也同樣有機會出現打倒巨人的大衛。

「以前可能只有大機構才有這樣的運算能力，他們自然可以用這樣的數據分析優勢來保持壟斷優勢。但當平行運算出現後，人人都有條件搞 Big Data 分析。用一部電腦，單是分析一份試卷都要用上幾小時，但用 AWS 就兩小時已經完成 22 年所有試卷的分析。問題只在於機構是否想得到怎樣去做，要分析甚麼數據而已。」黃俊彦說。

非公開數據才是真正關鍵

看到這兒，相信很多人都躍躍欲試。是的，Big Data 原來可以很簡單，但前題是你能掌握到有價值的數據，與及有基本的 IT 技術去做分析。Big Data 其中一個實際難題是數據非常零散，你要懂得在哪兒找到你想要的數據，才有可能做到分析。舉個例子，原來藍鰭吞拿魚只在大西洋和地中海出現，如果你在印度洋裡找便很難找得到，如果你要找美人魚更可能完全找不到，因為不存在的東西永遠都不存在。

換言之，如果你要搞 Big Data 分析，首先你要確定在哪兒能得到你想要的數據。舉個實例，Data-HK 的 IT 工種分析專案，就只能分析 IT 工作需要的技能，但如果你想知道「IT 創業需要甚麼技能」，你是不能在其中得到真實答案的。黃俊彦表示，如果風險投資者能夠公開他們收過的計劃書，他便能用同一招式計算計劃書出現過的關鍵字，為學生給出「IT 創業趨勢報告」，但問題正在於這些數據不是公開的。

unwire003 — 黃俊彦坦承，要做 Big Data 分析之前，先要確保自己知道在哪兒找到需要的數據。

數據是內功、技術是招式

掌握到多少屬於自己擁有的數據，並能把它們作有效的分析，就是未來機構以 Big Data 增加競爭力時的關鍵所在。公開的數據誰人也能做分析，但機構內部數據卻是只限機構自己才能分析。而這正是為何說，掌握愈多數據便愈有競爭力。

數據多寡就像武俠小說世界的「內功」，你有多少數據就有多少內力。而 IT 技術就是「武功招式」，你要懂得編寫一套系統去收集有用數據，寫一套系統去分開數據做平行運算和綜合結果。武林高手總不能每次都借人內力，整理收集屬於自己的數據庫自然刻不容緩。反而技術層面不難解決，除了聘請具有 Big Data 視野的開發人才外，坊間也有不同方案針對 Big Data 分析市場，但是否能滿足機構的期望倒是看各自的實際情況了。

大數據分析成本只需 120 元？ 10 分鐘即學懂 Big Data！

“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.”── Dan Ariely.

防止 3D 槍械打印　日本研究於列印機中加入限制

Amazon 計劃在年底前將機械人增至 10,000 隻

Leave a Response 取消回覆

大數據分析成本只需 120 元？ 10 分鐘即學懂 Big Data！

“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.”── Dan Ariely.

you might also like

Amazon 加碼 130 億美元押注印度 AI 在地雲端基建仍有成長空間

共建智慧新香港：Agentic AI 與跨界協同的戰略路徑｜破除安全迷思邁向開放生態

AWS Summit Hong Kong 2026 現場直擊：企業 AI 不再選模型 關鍵在數據與治理

香港創科人才培育加速 AWS 與科技園啟動 JIC 三年升級計劃

AWS 同時押注 OpenAI 與 Anthropic Matt Garman 稱左右手競爭早已駕輕就熟

Leave a Response 取消回覆

Amazon 加碼 130 億美元押注印度 AI　在地雲端基建仍有成長空間

AWS Summit Hong Kong 2026 現場直擊：企業 AI 不再選模型關鍵在數據與治理

AWS 同時押注 OpenAI 與 Anthropic　Matt Garman 稱左右手競爭早已駕輕就熟