立即下载 知乎日报 每日提供高质量新闻资讯

足球博彩,人算不如模型算?

图片:James Boyes / CC BY

褚波,"科学美国人"中文版《环球科学》执行主编

撰文 迈克尔•莫耶(Michael Moyer)
翻译 蒋慧桢

自从人类在草原上开始赛跑以来,观众们就开始预测结果,并且在体育赛事上投下赌注。而近些年,一种与众不同的数据分析法逐渐雄踞赛事预测市场。高盛,彭博以及纳特•西弗尓的 538(FiveThirtyEight)官网都在利用数据,而非凭借直觉来判断比赛结果。高盛预测本土作战的巴西有 48.5%的几率拿下冠军;538 给出的几率是 45%,而彭博认为巴西夺冠的几率仅有 19.9%。

这些数据从何而来?所有的数据分析专家都以数据为准,足球赛事预测网站也需要参考过去比赛的结果。这样的分析方法有理可循。但大型的世界级足球比赛有限,所以分析员还要考虑,在结果无可争议的国际足球友谊赛中,如何评价各支球队的表现。建模时,分析员首先应该决定收集多少时间之内的相关数据——比如说,当队中年龄最大的球员已经 34 岁,是否会对巴西国家队光辉的战绩产生影响?以及如何利用个人球员在俱乐部(曼联和皇马等)的表现给他们做出适当的评价?

不管数据的来源,分析员最后都会将它整合成模型。通常情况下,建模人员会把问题从“哪一支队伍会胜出”改为“X 队和 Y 队比赛,两对分别会进多少球”。这里使用的方法名为“双变量泊松回归分析法”(bivariate Poisson regression)。

利用“双变量泊松回归分析法”进行预测

也许你并不熟悉上面提到的专有名词,我们可以将它拆开来一一解释。“双变量”是指,在做出某个单一结果的预测时需要参考两个相互影响的因素,比如一场比赛中的 X 队和 Y 队的表现。“回归分析法”是指,将即有数据填充到模型中去。而“泊松分布”则是很有趣的分析方法。

试想像,你站在路旁,想要知道一分钟会有多少汽车急驰而过。首先,你必须利用秒表和计数器收集数据。假设第一分钟有 15 辆车驶过;第二分钟有 18 辆; 而下一分钟只有 4 辆。持续记录下去,你就可以得到一个模型,这便是“泊松分布”的原型。这项分析方法由法国数学家西莫恩•德尼•泊松提出,用于估测做出错误判断的概率。

根据泊松分布,足球比赛的结果同样具有分散性。一支足球队进 1 或 2 个球的可能性最大,其次为不进或者进 3 个,而进 4 或 5 个球(或者更多)的几率则大大下降。于是建模人员会根据这支队伍之前的表现,通过泊松分布制图,预测它们之后得分的情况。

想要下注的人们看过来!截止本稿发布,网络博彩公司“必发”(BetFair)预测巴西将有 24.4%的胜算。如果你相信高盛或者是 538 的预测数据,认为巴西有一半的夺冠几率,那么就赶紧下注吧!当然,估计有人即使读了高盛和 538 的分析,还是会一如既往地赌巴西 24.4%夺冠。

(原文译自“科学美国人”网站,World Cup Prediction Mathematics Explained)

———————————————

“科学美国人”中文版《环球科学》授权发布

微信公众号:huanqiukexue 快速解读前沿科技趋势

扫描二维码下载知乎日报

支持 iOS 和 Android
二维码下载知乎日报
阅读更多 - 怎么吃也不胖,你怎么做到的? - 可能是因为想吃就吃吧 下载 「知乎日报」 客户端查看更多