美國總統大選民調又估錯，傳統民調失效也不等同大數據準確

由

2019-06-13

美國總統大選已塵埃落定，一天之前所有報紙民調都說希拉蕊篤定當選，但結果卻如大家所知。有趣的是，在大選前預言說中的卻是人工智慧，由印度開發的 MogIA AI 就成功預言川普當選。這證明了傳統民調已經完全失效了，但大數據和人工智慧是否又一定準確？

內容目錄 隱藏

1 人人都想問：為何公投結果和民調預測完全不同？

2 傳統民調哪兒出錯了？追不上時代！

3 小眾觀點傾向沉默，但原來票數足以改變結果

4 人工智慧大數據預測比民調更準？

5 AI 不懂「讀心」，網友意志未必真實呈現

6 傳統學術非無能為力，往績其實更佳

7 延伸閱讀：

人人都想問：為何公投結果和民調預測完全不同？

其實早前的英國 6 月脫歐公投已經有這樣的情況了。當時鋪天蓋地都是留歐的聲勢最強，傳統機構民調、市場預測，就連博彩網站也是留歐的賠率較低，而在公布結果前由調查機構 YouGov 做的票站民調也是留歐佔多。結果因為出乎預期，於是股市跌、匯價跌，人人都想問為何公投結果和民調預測完全不同。

Perspective Box 透視箱

當時很多人分析原因，有人認為脫歐派被標籤為「年長、愚蠢、低學歷」，沒人願意對民調承認自己的真實想法，也有人認為脫歐派大多不是網友，因此難以被發現，亦有人指脫歐派都是窮人居多，就算下注脫歐也改變不了賠率。

但不管原因為何，公投結果改變不了，英國政府動盪，卡麥隆下台，梅伊政府亦正研究如何啟動脫歐程序。對梅伊政府而言，預測失準帶來的損失非常大。正所謂「千金難買早知道」，成功預測未來結果就能及早準確，決定做或不做什麼事。如果卡麥隆準確預先知道公投結果，又豈會願意啟動公投？

傳統民調哪兒出錯了？追不上時代！

爆冷成功脫歐，就有人預測會不會在美國大選也出現戲劇性結果，當時人人都是說「個別事件」，但結果是再一次爆冷，這一刻實在不能不問，傳統民調哪兒出錯了？事實上民調從來不兒戲，是社會統計學的專業範疇，透過公正客觀的方式收集大量樣本，再按比例投射到整個群體，是相對客觀、精確地反映社會輿論的方式。

傳統民調會用隨機方式以電話訪問民眾，在訪問前排除一些因素後再向被訪者發問一組問題。不過今時今日愈來愈少人用室內電話，也愈來愈少人願意花時間受訪，回應率愈來愈低之餘，加上愈來愈多人不樂意公開真實的想法（即使是匿名民調），自然更難像以前般控制樣本的純樸性。

2012 年歐巴馬競選連任時，民調就估計是對手羅姆尼勝出，但結果是歐巴馬遙遙領先，近年全球大選都同樣有民調失準的情況。先撇開別有用心想造假，又或缺乏資源「為做而做」的民調不論，現實是民調手法落後已追不上現在實際社會發展。因此不少人都提倡民調中心應發展其他新技術，以讓民調能更符合現實發展，並提升準確性。

小眾觀點傾向沉默，但原來票數足以改變結果

最多人討論的當然是社群媒體的大數據調查。在商業世界早已應用社群媒體大數據來協助掌握消費者的口味，例如香港的電視台就已經利用上述技術來了解新劇集、新節目的網上口碑，甚至隔日就能在黃金時間的娛樂新聞節目回應；而消費商品更會監視消費者對新商品的即時反應，甚至用於調整商品的市場對策。

不過，脫歐公投時何嘗不是網上一片「留歐」之聲？社群媒體大數據顯然仍有一些難以跨越的界限。傳播理論有所謂「沉默螺旋」：愈多人同意的內容，愈是比較放心公開說，反而抱持愈是小眾觀點的人就愈傾向沉默。由於社群媒體是公開的，自然愈有這種傾向，於是支持脫歐、支持川普的聲音就隱藏了起來。

而且輿情能否跟選票真實掛勾是沒有因果關係的，在網上大罵政府的人不見得是選友，更不見得會在大選日投票，如果直接把網上輿情和選情預測掛上等號，幾乎一定出事。就以 2010 年香港的「五區補選」為例，當時網上就討論得相當激烈，但實際其實只是一少部分人熱鬧而己，投票率僅為 17.1%，是回歸以來最低。

人工智慧大數據預測比民調更準？

另一個會被談論的就是 Google Trend。比起眾多雜亂的社群平台，幾乎在中國以外的全球市場統一天下的 Google 是單一平台，擁有大量的搜尋數據，做統計分析其實相對客觀和誤差較少。而前面提過的人工智慧 MogIA AI 也同樣是收集 Google、Facebook、Twitter 和 YouTube 的大量數據來做分析。

Google Trend 做的是呈現網友的搜尋趨勢，例如川普會和哪些字一齊被搜尋、在什麼時候開始多人搜尋川普、哪些地區的網友搜尋最多川普的訊息，這些都能在 Google Trend 上得到答案。搜尋趨勢是很客觀的，它能呈現一些社會議題被討論的多寡，配合其他數據交叉分析能得到有價值的結果，而且也沒有「沉默螺旋」的問題。

但問題是，談論得多就是否等如能夠勝出大選？中間有沒有邏輯關係？其實這個誰也沒有答案。2014 年世界盃比賽，當時中國百度就推出了類似的趨勢網站，並利用中國網友的搜尋趨勢來預測賽果。但問題就來了，如果比賽實際影響因素是球員表現、天氣和場地狀態，那搜尋趨勢又代表什麼？

AI 不懂「讀心」，網友意志未必真實呈現

不過大選跟球賽的最大不同，當然是大選是呈現選民的集體意志，網友的搜尋趨勢當然會對投票抉擇有影響，而正面訊息和反面訊息的搜尋趨勢絕對值得參考，但要說 Google Trend 或其他基於這些數據來分析的選情預測的準確性夠高，目前仍需要時間去驗證。

事實上，就連每天都寫科技消息的筆者，也對人工智慧預言川普當選的結果有所保留。畢竟這其實是一個「賭大小」的遊戲，選出獨立候選人的機會比圍骰還要低，如果不是川普就是希拉蕊的話，猜中的機率也不過是一半一半，實際就跟向八爪魚保羅請教世界盃賽果一樣。

據 Business Insider 的報導，印度公司 Genic.ai 所開發的 MogIA，自 2004 年就開始就預測美國總統大選結果，而其結果就 3 次皆中，如果再計這次川普的話就更是四屆全中。為了進一步排除人為的偏見和誤差，MogIA 會利用機器學習來建立演算法，經過 12 年的學習就更加完善。

但即使如此，人工智慧也未能解決一些核心問題，例如川普得票最多的就是鄉村地區，而最熱愛科技的卻是城市人。而且就連 Genic.ai 也承認，MogIA 對人類的「反諷」語言依然未盡了解，未必能夠辨別出否定的言論，而熱烈的互動率也絕不代表受歡迎。

傳統學術非無能為力，往績其實更佳

搖擺州份之所以難預測正在於人心的反覆，沉默選民的意向能否被正確收集和分析，目前仍要看他們有否積極在網路上表現，人工智慧並非真的能「讀心」，要證明大數據和人工智慧可取代傳統民調，還是需要時間做更多實證，不過隨著社群媒體的使用者愈多，準確性能提高應該是必然的。

不過傳統學術是否真的無能為力？似乎也不是。美國紐約州立大學石溪分校政治學教授 Helmut Norpoth，分析了自 1912 年起的歷屆大選並歸納出兩個預測模型：初選模型和搖擺效益模型，而且就憑它成功預測了由 2000 年起的五屆總統大選，而他更預測川普的勝率達 97%。

而美國政治史學家 Allan Lichtman 也透過歸納歷屆大選而在 1981 年提出「入主白宮的 13 個關鍵」，並成功預測其後三十多年的八屆總統大選。這 13 道是非題其實是反映施政成效，得分愈低就會選輸，而Allan Lichtman 就因此也同樣斷言川普將會勝出。

因此預測選情還是需要結合傳統和新科技，傳統的預測模型仍然經得起考驗，配合大數據和人工智慧將有更多的交叉求證的工具做預測，未來將會是多重工具做分析的時代。

（本文由 Unwire Pro 授權轉載；首圖來源：達志影像）