close

美國總統大選已塵埃落定,一日之前所有報紙民調都說希拉莉篤定當選,但結果卻如大家所知。有趣的是,在大選前預言說中的卻是人工智能,由印度開發的 MogIA AI 就成功預言杜林普當選。這證明了傳統民調已經完全失效了,但大數據和人工智能是否又一定準確?

maxresdefault

 

人人都想問:為何公投結果和民調預測完全不同?

其實早前的英國 6 月脫歐公投已經有這樣的情況了。當時鋪天蓋地都是留歐的聲勢最強,傳統機構民調、市場預測,就連博彩網站也是留歐的賠率較低,而在公布結果前由調查機構 YouGov 做的票站民調也是留歐佔多。結果因為出乎預期,於是股市跌、匯價跌,人人都想問為何公投結果和民調預測完全不同。

當時很多人分析原因,有人認為脫歐派被標籤為「年長、愚蠢、低學歷」,沒人願意對民調承認自己的真實想法,也有人認為脫歐派大多不是網民,因此難以被發現,亦有人指脫歐派都是窮人居多,就算下注脫歐也改變不了賠率。

但不管原因為何,公投結果改變不了,英國政府動盪,卡梅倫下台,文翠珊政府亦正研究如何啟動脫歐程序。對卡梅倫政府而言,預測失準帶來的損失非常大。正所謂「千金難買早知道」,成功預測未來結果就能及早準確,決定做或不做什麼事。如果卡梅倫準確預先知道公投結果,又豈會願意啟動公投?

rtr46bry

 

傳統民調哪兒出錯了?追不上時代!

爆冷成功脫歐,就有人預測會不會在美國大選也出現戲劇性結果,當時人人都是說「個別事件」,但結果是再一次爆冷,這一刻實在不能不問,傳統民調哪兒出錯了?事實上民調從來不兒戲,是社會統計學的專業範疇,通過用公正客觀的方式收集大量樣本,再按比例投射到整個群體,是相對客觀、精確地反映社會輿論的方式。

傳統民調會用隨機方式以電話訪問民眾,在訪問前排除一些因素後再向被訪者發問一組問題。不過今時今日愈來愈少人用家居電話,也愈來愈少人願意花時間受訪,回應率愈來愈低之餘,加上愈來愈多人不樂意公開真實的想法(即使是匿名民調),自然更難像以前般控制樣本的純樸性。

2012 年奧巴馬競選連任時,民調就估計是對手羅姆尼勝出,但結果是奧巴馬遙遙領先,近年全球大選都同樣有民調失準的情況。先撇開別有用心想造假,又或缺乏資源「為做而做」的民調不論,現實是民調手法落後已追不上現時實際社會發展。因此不少人都提倡民調中心應發展其他新技術,以令民調能更符合現實發展,並提升準確性。

d86d665a7ce788e8e92d6bde5fac18cb

 

小眾觀點傾向沉默、但原來票數足以改變結果

最多人討論的當然是社交媒體的大數據調查。在商業世界早已應用社交媒體大數據來協助掌握消費者的口味,例如香港的電視台就已經利用上述技術來了解新劇集、新節目的網上口碑,甚至隔日就能在黃金時間的娛樂新聞節目回應;而消費商品更會監視消費者對新商品的即時反應,甚至用於調整商品的市場對策。

不過,脫歐公投時何嘗不是網上一片「留歐」之聲?社交媒體大數據顯然仍有一些難以跨越的界限。傳播理論有所謂「沉默螺旋」:愈多人同意的內容,愈是比較放心公開說,反而抱持愈是小眾觀點的人就愈傾向沉默。由於社交媒體是公開的,自然愈有這種傾向,於是支持脫歐、支持杜林普的聲音就隱藏了起來。

而且輿情能否跟選票真實掛勾是沒有因果關係的,在網上大罵政府的人不見得是選民,更不見得會在大選日投票,如果直接把網上輿情和選情預測掛上等號,幾乎一定出事。就以 2010 年香港的「五區補選」為例,當時網上就討論得相當激烈,但實際其實只是一少部分人熱鬧而己,投票率僅為 17.1%,是回歸以來最低。

maxresdefault-1

 

人工智能大數據預測比民調更準?

另一個會被談論的就是 Google Trend。比起眾多雜亂的社交平台,幾乎在中國以外的全球市場統一天下的 Google 是單一平台,擁有大量的搜尋數據,做統計分析其實相對客觀和誤差較少。而前面提過的人工智能 MogIA AI 也同樣是收集 Google、Facebook、Twitter 和 YouTube 的大量數據來做分析。

Google Trend 做的是呈現網民的搜尋趨勢,例如杜林普會和哪些字一齊被搜尋,在什麼時候開始多人搜尋杜林普,哪些地區的網民搜尋最多杜林普的訊息,這些都能在 Google Trend 上得到答案。搜尋趨勢是很客觀的,它能呈現一些社會議題被討論的多寡,配合其他數據交叉分析能得到有價值的結果,而且也沒有「沉默螺旋」的問題。

但問題是,談論得多就是否等如能夠勝出大選?中間有沒有邏輯關係?其實這個誰也沒有答案。2014 年世界盃比賽,當時中國百度就推出了類似的趨勢網站,並利用中國網民的搜尋趨勢來預測賽果。但問題就來了,如果比賽實際影響因素是球員表現、天氣和場地狀態,那搜尋趨勢又代表到什麼?

google-trends

 

AI 不懂「讀心」、網民意志未必真實呈現

不過大選跟球賽的最大不同,當然是大選是呈現選民的集體意志,網民的搜尋趨勢當然會對投票抉擇有影響,而正面訊息和反面訊息的搜尋趨勢絕對值得參考,但要說 Google Trend 或其他基於這些數據來分析的選情預測的準確性夠高,目前仍需要時間去驗證。

事實上,就連每天都寫科技消息的筆者,也對人工智能預言杜林普當選的結果有所保留。畢竟這其實是一個「賭大細」的遊戲,選出獨立候選人的機會比圍骰還要低,如果不是杜林普就是希拉莉的話,猜中的機率也不過是一半一半,實際就跟向八爪魚保羅請教世界盃賽果一樣。

據 Business Insider 的報導,印度公司 Genic.ai 所開發的 MogIA,自 2004 年就開始就預測美國總統大選結果,而其結果就三次皆中,如果再計今次杜林普的話就更是四屆全中。為了進一步排除人為的偏見和誤差,MogIA 會利用機器學習來建立演算法,經過 12 年的學習就更加完善。

但即使如此,人工智能也未能解決一些核心問題,例如杜林普得票最多的就是鄉村地區,而最熱愛科技的卻是城市人。而且就連 Genic.ai 也承認,MogIA 對人類的「反諷」語言依然未盡了解,未必能夠辨別出否定的言論,而熱烈的互動率也絕不代表受歡迎。

countymaprb1024

 

傳統學術非無能為力、往績其實更佳

搖擺州份之所以難預測正在於人心的反覆,沉默選民的意向能否被正確收集和分析,目前仍要看他們有否積極在互聯網上表現,人工智能並非真的能「讀心」,要證明大數據和人工智能可取代傳統民調,還是需要時間做更多實證,不過隨著社交媒體的使用者愈多,準確性能提高應該是必然的。

不過傳統學術是否真的無能為力?似乎也不是。美國紐約州立大學石溪分校政治學教授 Helmut Norpoth,分析了自 1912 年起的歷屆大選並歸納出兩個預測模型:初選模型和搖擺效益模型,而且就憑它成功預測了由 2000 年起的五屆總統大選,而他更預測杜林普的勝率達 97%。

而美國政治史學家 Allan Lichtman 也透過歸納歷屆大選而在 1981 年提出「入主白宮的 13 個關鍵」,並成功預測其後 30 多年的八屆總統大選。這 13 道是非題其實是反映施政成效,得分愈低就會選輸,而Allan Lichtman 就因此也同樣斷言杜林普將會勝出。

因此預測選情還是需要結合傳統和新科技,傳統的預測模型仍然經得起考驗,配合大數據和人工智能將有更多的交叉求證的工具做預測,未來將會是多重工具做分析的時代。

n-350x500

 

 

作者:Boris Lee
Unwire.pro 資深編輯。在企業 IT 科技報道範疇有十多年經驗。

 

 

 

Tags : aibig dataBig Data AnalysisbrexitDonald TrumpElection DaySildeUS President
Boris Lee

The author Boris Lee

Unwire Pro 資深編輯,在企業 IT 科技報道範疇有十多年經驗。近年專注報導香港初創企業、本地資訊科技業界發展。
訂閱 unwire.pro 電子報
最新科技趨勢每日直達郵箱
Your Information will never be shared with any third party.