数据大神Nate Silver是如何预测美国大选的?

1评论 2016-10-09 15:03:16 来源:瞭望智库 作者:陈经 “真雄安”即将诞生(名单)

邀请好友送豪礼!185元红包等你拿! 基金商城1折起购

  本文原发于瞭望智库,两次成功预测美国大选结果的数据大神Nate Silver,这次会押谁?)

  说起美国大选,不少新闻和舆论总是提到一个“数据大神”Nate Silver。如2016年7月20日,新闻引用Silver的预测,希拉里大选获胜概率为64.2%,领先特朗普的35.8%。9月26日第一场电视辩论会之前,媒体又引用Silver的预测,“如果立刻大选”,特朗普的胜率是51.1%。电视辩论会之后,在Silver建立的“538”网站上,希拉里的胜率明显提升,2016年10月1日为67.3%,10月7日已到达80.7%。

  Nate Silver早年是搞统计的,对数据非常有兴趣,在审计公司毕马威当了四年顾问。后来打德州扑克赚了40万美元,虽然作为职业扑克选手并不算太出众,却让他开始靠数据分析创业。他对美国职业棒球大联盟的球员数据进行了细致独到的分析,预测非常成功,做的网站也成功被人买走。

  然而,真正让Nate Silver名声大噪的,是他对2008年和2012年美国大选的成功预测。2007年Silver建立了“538”博客(后来变成fivethirtyeight.com,因美国大选有538张选举人票),独树一帜地靠数据分析进行时政预测。2008年大选,Silver预测对了50个州选举结果中的49个。2012年,他预测奥巴马胜出概率高达9成,和一般专家说的奥巴马与罗姆尼五五开的预测很不同,最后结果出来全部50个州都预测对了。大选后第二天他接受专访,被脱口秀主持人称为“算法之神”。这让Nate Silver彻底火了,他解释预测技术的书《信号与噪声》销量增长800%,成为畅销书榜第二名。2016年美国大选,Nate Silver又在538网站上不断更新对大选的预测,继续得到极大关注。

  那么Nate Silver到底是如何精准预测美国大选的呢?

  首先,Nate Silver进行预测并不是靠所谓的“直觉”,而是纯粹地靠数据,对众多的数据用算法进行处理。所以他做的是一个预测算法,编程实现的,报告的是计算结果,是“胜率80.7%”这种精确的数值,不是“希拉里优势明显”这种模糊的话。

  在美国大选这个事件上,算法依靠的主要基础数据就是各种各样的“poll”,即大选民意调查。美国大选历时数月之久,全国以及每个州都有各种机构主办的不同规模的大选民意调查,一个州对一次大选可能有多达上百次的民调。如对佛罗里达州,538网站共收集了68次民调数据。(佛罗里达州的68个民调的详细数据在:http://projects.fivethirtyeight.com/2016-election-foreCAst/florida/)

  这就是Silver需要的“信号”。但是由于各种民调的机构背景、立场倾向、覆盖人群、举办时间差异极大,参考意义肯定各有不同,如何处理就是真正的技术了。这相当于要从一堆“信号”中,排除掉“噪声”,得到真正有效的信息。

  Nate Silver依靠的基础技术叫“贝叶斯理论”,是关于概率的理论。这听上去有些高深,特别是写成概率论里的P(A|B)这样的数学形式时,容易让人“不明觉厉”。其实并不难解释,原理很简单。

  在没有任何信息时,可以认为希拉里和特朗普的胜率各为50%。这时出了一个州的民调,说问了1000个人,支持希拉里的有600人,投特朗普的有350人,还有50人两人都不喜欢,会投给独立参选人约翰逊。这么点人,应该决定不了最终的结果,但是据此上调希拉里的获胜概率,如调到50.1%,似乎有点道理。

  如果全美有几千个这样的民调,全部考虑进来,有的让希拉里胜率增加,有的会提升特朗普的胜率,最后综合下来,就会有一个最终的胜率报告出来。

  值得注意的是,随着选战不断发展,新的民调数据会出来,老的民调效用趋向减小,算出来的概率是不断波动的。538网站每天都会算出最新的大选胜率报告出来,形成胜率曲线,下图是直至10月1日的胜率曲线。其实每个州都有一个单独的胜率曲线,得票率也有具体的估计。

图片0

  所以,我们不能说Nate Silver看好谁,他是没有“预设立场”的。Silver报告的胜率不断波动,领先者是可能发生变化的,8月初特朗普就领先过。这正是他与一般预测专家不同之处。

  一般专家预测成功了,可能会说我提前一年就看好最终获胜的人了,我的直觉好,有远见。如果一个专家3月看好希拉里,5月改看好特朗普,9月又改回希拉里,人们可能会说这什么鬼专家,变来变去太不靠谱了。

  如果“专家”是基于一些冲动的理由,预测变来变去,那是不靠谱,让人觉得一惊一乍的,生活中是有些人会如此。但是从数据处理的角度来说,早期基于不完全的信息,作出一个概率预测,误差大在所难免。等时间过去,更多有效信息来了,预测就能更为精准,这时对过去的预测进行调整,是再正常不过的事,“坚持立场”不调整反而不对。

  特别是美国大选这样的事,本来就有很大的不确定性,有些信息就是未来才能确定的。例如,10月希拉里可能被挖出一个大丑闻,相比没有发生这样的事,对选战影响肯定不同。

  Nate Silver的分析方法好处是,随着最终大选的时间点临近,他的有效数据信息越来越多,算法预测会越来越准,最终和大选真实结果差不多了。如2012年对50个州的结果全部预测正确。而一般专家很难充分利用有效信息,多少会凭感觉去蒙,不会这么准确。

  Nate Silver的方法揭示了一个深刻的道理,预测并不是一下子的事,而是一个概率序列,是需要不断收集信息更新认识的。一开始预测粗略或者改变倾向都是正常的,只要最终收敛向真实结果,这种方法就是科学的。只要细心收集数据、处理数据,这种方法是可以重复的。每次美国大选都可以用,其它事件也可以。

  当然,对于每一个民调数据,如何影响计算出来的概率,这是需要仔细考虑的,是预测算法真正的细节。这些民调差异极大,有时甚至给出完全相反的结果,如何解读确实不容易。538网站进行了细致的解释,如根据过去12次大选的历史记录,对发布民调机构的权威性进行分级,计算时分配不同的权重。针对民调覆盖的人群进行调整,如西裔会更倾向希拉里一些,不能代表全国的情况,要相应下调。

  除了民调数据,经济数据也可能被考虑进来,因为经济数据好,会对在任党派有利,是重要影响因素。

  这样的调整非常多,需要精心的数据观察,也需要对美国大选的具体过程很了解,是非常专业的。这也是可以不断改进的,538网站从2008年到2016年三次大选,都有一些小调整,2012年就加进了几个调整项。

  Nate Silver还邀请读者对具体的调整细节提出批评,或者提出更合理的调整项。可以看出,这是科学的数据处理算法的研发过程,有非常多的细节。(详细的计算方法与调整项解释在:http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/ )

  一般专家根本不会这么考虑问题。要么说不清自己为什么看好某人,诉诸于神秘的直觉;要么说几个简单的理由,搞得好就说是抓住了要点,不好就是发生了意外。Nate Silver可以解释清楚每天预测的胜率是怎么来的,公开给出复杂而精确的算法,对时政预测领域这是革命性的思想变革。

  Nate Silver实际给出了几种算法,虽然不同算法的区别并不太大。如有一种算法考虑了经济数据,另一种不考虑,最终二者算出的数值会在大选前夜重合。

  我们甚至发现,Nate Silver预测过程中的概率波动,与谷歌围棋程序AlphaGo和李世石对弈过程中的胜率曲线很类似!AlphaGo在对弈过程中也是每一步都不断更新双方胜率,高低起伏。但到棋局定型的时候,就会给出80%之类的高胜率,实际上胜负已定。

  Nate Silver是在用科学方法模拟选战,和AlphaGo多次模拟下完整盘棋计算胜率的科学原理是相通的。大数据暴力模拟比起人类的“直觉”自有它的优势。

图片1

  AlphaGo与李世石第二局的胜率曲线,由Darkforest程序进行估算AlphaGo与李世石第二局的胜率曲线,由Darkforest程序进行估算

  值得注意的是,Nate Silver的预测方法非常依靠数据。所以,与其说他是“预测大神”,不如说他是“数据大神”。美国大选可以搞这种精确的胜率计算,因为各种媒体与机构报告了海量的民调数据。

  可以肯定地说,没有一个民调是完全靠谱的,都会有偏差,有意或者无意。但是几千个民调提供的原始数据是很有意义的,因为可以对这些数据进行建模,无论误差是有意还是无意,都可以根据数据背景以及历史表现,进行有道理的调整。具体的调整方法太复杂,一般人不用去研究,但不难认识到这种方法的先进性。

  如果没有足够的有效数据,那么Nate Silver就不能进行精准预测了,从他的方法来看会如此。这时某些直觉良好的专家可能就有用武之地了,这也是可以想象的。也许专家通过梳理逻辑,抓住了事情的关键,给出了方向性的预测并最终成功。这种情况肯定还会有,依靠数据预测并不能包打天下。但是在数据足够的情况下,需要对Nate Silver引入的这种方法足够重视。从方法论来说,对数据进行越来越精确的建模,将各种因素尽可能多地考虑进来,是更科学更先进的。

  具体到美国大选这个事,不能简单地说“大神Nate Silver看好希拉里”,所以就觉得特朗普肯定完了。Silver自己解释了,他计算出来的是一个概率,并不是一个肯定的事。希拉里10月1日以67.3%领先特朗普的32.7%,这并非排除了特朗普的胜利可能。实际上算法会进行20000次模拟,其中有6000多次是特朗普获胜。因为离大选还有一定时间,会有不确定性,会带来“误差”。

  主要有三种不确定性,一种是全国性的波动,会对每个州的数据都产生影响,如选举人丑闻爆出,所有州的数据都下调。一种是特定人群或者特定区域的州会受影响,如希拉里对中部地区人群出言不慎。一种是单一的一个州的波动。对可能的波动建模,Silver没有用正态分布,而是用了更为平滑的t-分布。有的波动对希拉里有利,有的波动对特朗普有利,各种波动都模拟下。最终模拟出来希拉里在67.3%的情况下获胜。实际特朗普也有不小的获胜次数,差距并不大。

  这并不是说希拉里的民调有67.3%的支持率。在20000次模拟中,希拉里的得票率预测值是47%,只领先特朗普的43.9%三个点,所以才会在模拟中有6000多次被“波动”翻盘。每一次模拟会对50个州都分别给出两人的得票率,高的人会占有这个州全部的“选举人”票,50个州加起来是538张选举人票。如佛罗里达州,模拟中即使希拉里只以47%领先特朗普的46%,这个州所有27张选举票也全归她,而不是按比例分。模拟中总共得到270张或者更多选举人票的就胜利了。美国大选的这种“赢家通吃”的特殊制度,使得占优的候选人的胜出概率,要远高于群众支持率几个点的差别。在大选前夜,可能Nate Silver会给出90%这样的获胜概率,即使两人的支持率差距仍然只是几个点。

  其实Nate Silver能在2012对50个州的结果全部预测正确,并没有想象中这么神奇,这不是50个独立事件,是有关联的。因为很多州的结果是早早确定的,预测并不难。如亚拉巴马州,特朗普的胜率99.4%,一直接近100%,没有人会预测错误。其实这个州的民调数据,特朗普预期得票率只是以56%领先希拉里的36%,但特朗普的获胜概率足够大,近100%了。只有一些“摇摆州”的预测有些难度,但也不是神迹,可以用下面这个图来解释。

图片2

  这张图代表了10月1日的情况,蓝色是希拉里占优的州,红色是特朗普占优的的州,颜色越深优势越大。长度代表一个州的选举人票的多少,中间的虚线是各得269张选举人票的平衡点。可以看出,希拉里的“优势”其实只有两三个州,颜色不深,可能会被翻盘。如在佛罗里达州,希拉里的预测胜率56.2%领先特朗普的43.2%,但预期得票率只是46.7%,领先特朗普的45.7%很小,可能一个小事件就被翻盘了。如果Silver大选前夜计算时,对中间的分界点算得极准,那就可能50个州全对,因为后面的一长串都是对的。2012年就全对了,2008年错了一点位置,有一个州没预测对,但由于奥巴马优势够大不影响全局。2016年的选战从图中也有能看出,比较胶着,Silver也说很接近。

  国庆长假结束后,选战又有发展,按538网站10月7日的最新数据,希拉里的胜率达到了80.7%。在蛇形图上,希拉里占优的州又增加了三个,变成了下图这样。Nate Silver说得票率差距扩大到5%-6%,第一次电视辩论后,特朗普的数据持续恶化。

图片3

  希拉里与特朗普的选战棋局,将在11月8日出结果,还有一个月左右的时间。从胜率来说,虽然希拉里领先,还远没有定局。我们可以继续观察双方胜率曲线的变化。如果领会了Nate Silver对大选数据进行科学处理的算法精神,我们就不用一定坚持看好某方,或者选择性地只看符合自己预期的信息增强“信心”。

  在预测时要心平气和地保持中立,观察各种信号的强弱,排除“噪声”的干扰。如果信号够强,就果断作出选择。如果在大选前夜,Nate Silver对某方给出了90%这样的胜率,这对我来说,是足够强的“信号”,我准备相信他。

  (完)

关键词阅读:预测 美国大选

责任编辑:吴晓璐
10秒开户 中国证监会授牌   民生银行资金监管    基金超市 数据来源:盈利宝基金研究中心,巨灵数据支持 全场购买手续费4折起!
更多>> 近一年涨幅 股票型收益榜
更多>> 近一年涨幅 混合型收益榜
2016基金投资策略|9.8%高收益产品,限量秒杀 !|闲钱存盈活期,7日年化收益5%-25%
快来分享:
评论 已有 0 条评论
理财产品快速查询