預測世界盃那個準? 「大數據預測」vs 燈神 Lulu

世界盃開賽了幾日,除熱議賽果外,各大網路名人預測賽果的準確性,肯定最多人關心。上屆有八爪魚保羅,今屆有大埔 Lulu,仲有每屆多嘴的球王比利,不過講到真金白銀投注,恐怕就不是人人都信「燈神」。近年熱門用大數據分析短期趨勢,不少機構都試著用大數據預測今年的冠軍。誰最準當然要等到決賽才知,但如能證明大數據的準確性,其商業前景就肯定無可限量。

世界盃開賽了幾日,除熱議賽果外,各大網路名人預測賽果的準確性,肯定最多人關心。上屆有八爪魚保羅,今屆有大埔 Lulu,仲有每屆多嘴的球王比利,不過講到真金白銀投注,恐怕就不是人人都信「燈神」。近年熱門用大數據分析短期趨勢,不少機構都試著用大數據預測今年的冠軍。誰最準當然要等到決賽才知,但如能證明大數據的準確性,其商業前景就肯定無可限量。

 

何謂 Big Data?

其實除了大埔 Lulu,全球各地都流傳這些「烏鴉嘴」、「賭海明燈」的人物傳奇。不過這些都只是迷信多於分析,就算舖舖「開口中」,恐怕也不是人人都寄予信賴。說到預測未來,人人都會說要分析歷史數據再預測,但分析哪些數據、以怎樣的方式交叉分析,倒是各家各法,未有定論。

所謂 Big Data、大數據,是近年最受企業關注的 IT 應用。由於互聯網、社交網路、流動裝置、物聯網等各種流行現象,令數據量在近年以幾何級數上升。數據分析是掌握現實狀況的關鍵,而大數據則是把數據分析的規模再擴大,把內部數據結合其他開放數據作交叉分析,從而找出不同趨勢之間的關係,再藉此作出更準確的分析。

以天氣預告為例,影響天氣的因素包括當地的溫度、氣壓、濕度、地理,以至磁場和地球自轉等,要準確預測需要掌握太多的數據,但時間有限下自然無法好好分析,只能得到一個粗略的預測。因此以前的天氣預報只能大致掌握明後天的天氣,如果再細分到每小時和不同地區,就會難度倍增。而大數據就以強大的運算能力,能在短時間內分析大量的氣象數據,從而得到更正確也更精細的預測。

 

巴西最有機會奪標

就以今屆的世界盃預測為例,德意志銀行和百度就分別預測,英格蘭或巴西會成為今屆冠軍。百度利用大數據對這賽事進行預測,結果顯示主場作戰的巴西隊,在本屆世界盃奪冠概率最大,以 21.8% 奪冠率遙遙領先,緊隨其後的是德國、西班牙、阿根廷、法國等。而南美的厄瓜多爾隊則以高達52.8% 的黑馬率,力壓智利、比利時等隊排名黑馬榜首位。

德意志銀行方面,亦根據決賽周各參賽隊伍的國際足聯成績排名、世界盃歷史戰績、球員資料、盤口數據等資料,再結合金融市場定量分析經驗,建立分析模型得到 2014 年巴西世界盃各球隊的奪冠概率,東道主巴西第一,其後是德國、西班牙、法國。該預測更進一步,根據各種非賽事因素來預測最終冠軍誰屬,結合奪冠概率和綜合因素後,預測今年的冠軍是英格蘭。

「巴西有主場優勢」,其實就算不用 Big Data 都答得出來的。

 

夾雜主觀因素會影響可信性

誰比較準還要多等幾星期才知道。不過大數據的準確性其實有很多參數影響,例如數據量的多寡、數據的可靠性、數據來源是否廣泛、交叉分析的邏輯關係是否成立等,因此即使人人在做大數據分析,結果未必都一樣。前面提到,影響大數據分析的參數很多,但分析往往都難免會滲入主觀因素,這些主觀因素會令預測出現很多預期之外的偏差。

就用回德銀的大數據分析做例子,原來該分析模型引入了「冠軍輪迴」的概念:在過去 19 屆世界盃中就有 3 次是連續四屆冠軍被不同國家奪得,有 2 次連續兩屆被不同球隊獲得。而 2014 年這一屆就剛好處於 4 屆不同國家冠軍的輪迴中,因此自 2002 年之後奪得冠軍的球隊不可能在本屆賽事中奪冠。

就連為該分析撰寫報告的德意志銀行分析師,也坦誠自己是英格蘭超級足球聯賽的球迷,就此看到這個大數據分析,完全是為了得到英格蘭這個結果而建立的分析模型。這分析模型是否客觀可靠,就看讀者自行判斷。不過這例子倒充分體現到,大數據的可靠性多寡還是源於是誰用怎樣的方法分析。

百度預測準確度達 75%

那是否百度就比較可靠?也許吧。百度相對而言就比較有「往績」,百度根據搜索數據、球隊數據、賠率等,再結合過去 5 年中 987 支球隊的 3.7 萬場比賽結果,共計 112,285,543 個數據構建球賽結果預測模型。該模型在 2010 年世界盃期間預測淘汰賽的比賽結果,準確率高達 75%,已算相當準確了。不過就算如此,也預測不到荷蘭大勝西班牙的關鍵賽果。

其實類似的分析一直有人在做,那就是訂立球賽賠率的博彩商。畢竟這是真金白銀的生意,每一分錢都要花在刀口上,如果大數據分析賽果跟賠率很相似,你絕對不用感到驚訝。但大數據的結果相信會非常接近一般球迷的普遍認知,誰不懂說巴西最大機會?傳統強隊獲勝機率大,對於參與下注的球迷來說這些結果幫助並不大。

以 17 號三場比場來看,百度實際預測正確率有三分一。

 

看到這兒,讀者大概開始覺得無聊了。好吧,那就直接解答幾條關鍵問題好了:

 

Q1. 大數據的冠軍預測是否可靠?

A1. 不知道,又未踢到決賽,誰知道是否準確。大數據預測只能給出一個趨勢,而不是萬能的水晶球,如果真那麼神算就乾脆去投注了。大數據只能按關鍵數據作交叉分析,但觀乎多個類似分析結果都跟專家,以至一般人認知的分別不大,巴西最有機會,誰不懂說?

 

Q2. 那大數據能否預測到每場勝負?

A2. 一如前述,是很困難的。每場勝負的關鍵有太多臨場的隨機亂數影響,除非是強弱懸殊的比賽,否則是很難得出正確預測的。就以剛過去的德國對葡萄牙為例,百度的分析是德國 47% 勝、29% 和局、24% 輸,賽果大致符合,但就預測不到大勝 4:0 的賽果了。不過同樣是百度,上星期荷蘭大勝西班牙,百度就預測西班牙會壓倒性勝利,但結果如何就大家都知道了。所以大數據並非百分百準確的。

百度預測荷蘭只有 19% 機會勝出,但賽果如何大家已經知道了。

 

Q3. 大數據能否預測到入球數字和入球球員?

A3. 每場球賽的入球就比單純勝負更難預測了。再以德葡大戰為例,Google 的大數據分析是 49%: 51%,即所謂「五五波」,而且這比的更只是網路上的關注度。而每名球員也列出了關注度,但球星的關注度跟實際入球是兩回事,根本不能參考。就當你真的能拿到每場比賽開始前,兩隊球員的身體狀態數據,但你也僅能估計入球機率而已,畢竟就算是 C 朗都要隊員配合才能入球,就算他是落場 22 人中狀態最好、球技最佳也沒有用的。

網民對兩隊的關注度,其實跟賽果沒有直接關係。

 

Q4. 那大數據是否對預測賽果無能為力?

A4. 那倒不是。其實未有大數據前,一直都有人在做賽前分析,但大多夾雜了個人的主觀因素,而且缺乏其他大量輔助參數做交叉分析。漫畫《火鳳燎原》裡「水鏡八奇」可預知天氣,繼而預測遠處戰爭結果,聽來神奇,但如果你能提早預知到某場歐洲對南美國家的賽事,是下雨而不是悶熱天氣,那南美球隊就少了天氣優勢。而這種預測是近乎不能以人力去做的。

其實博彩公司比一般人更有動機去用大數據做預測,而且他們肯定也已經在做。而在有大數據之前,博彩公司也一直在做類似的事,有了大數據後其實能更準確地預測到結果。雖然如此,但大概馬會和博彩公司都未必會預測到德國會大勝 4:0 就是,所以一般人也能在他們手上贏錢的,不過運氣就比用大數據來得可靠一點了。

 

Q5. 用大數據能否預測到六合彩結果?

A5. 這更加不可能了。大數據並非萬能的預言家,大數據只是藉由了解不同參數之間的因果關係,再從而作出準確預測,換言之若無法找出因果關係,所謂預測就算中了都只是運氣而已。坊間有很多書籍聲稱能預測六合彩,但其實都無法說出因果關係的。統計雖然能知道單數或偶數號碼近期比較多,又或是哪款顏色的波最常出現,但這些歷史數據沒辦法得出因果關係,根本不可能證明下一次就會出現。

事實上,六合彩和全球彩票公司都為了力求公平,而排除了各種可能影響結果的參數,務求結果是隨機而不受操控的。統計學曾經做過實驗,擲骰子的結果若長期紀綠的話,在排除影響因素下,其實每個數字的出現次數幾乎是均等的。即使真的有參數能夠令人提高猜出結果的機會,那主辦方唯一可以做的就是中止,不然的話,誰會在會受到操控的環境下投注?

[divider]

 

百度大數據 VS 大埔 Lulu

講多無謂,實際比一比最實際。下面是幾場 LuLu 和百度都預測過的比賽結果,大家比較一下,看你決定信哪一邊。由於大家都會反轉 Lulu 的貼士來投注,所以我乾脆直接用相反貼士來比較。

 

 

巴西 vs 克羅地亞 :平手

lulu : (巴西) / 百度:巴西

賽果: 巴西

 

 

西班牙 vs 荷蘭 : LULU 勝

Lulu:(荷蘭)/ 百度:西班牙
賽果:荷蘭

 

英格蘭 vs 意大利 : 平手

Lulu:(意大利)/ 百度:意大利
賽果:意大利

 

科特迪瓦 vs 日本 : 平手

Lulu:(科特迪瓦)/ 百度:科特迪瓦
賽果:科特迪瓦

 

德國vs 葡萄牙: 大數據

Lulu:(葡萄牙)/ 百度:德國

賽果:德國

 

 

結果分析:

就這幾場來看,分析好像不分上下,但因為 LULU 不是每一場都有「神喻」,所以很難去對比。不過大數據分析可以有更仔細的預測,而且每一場都有數據,比起LULU 來得可靠

 

大數據分析網頁 :

http://trends.baidu.com/worldcup/