星期三, 一月 04, 2012

Moneyball与体育数据挖掘

培根曾说,知识就是力量。如果以Billy Beane的角度来看,他也许会说,数据就是金钱。

一、背景
Moneyball》是Michael Lewis在2003年出版的一本书,讲述奥克兰运动家棒球队总经理比利·比恩(Billy Beane)利用体育数据挖掘来组织球队获得胜利的故事。由此书改编的影片在2011年上映,其中billy是由著名影星Brad Pitt出演。这本书颠覆了美国传统的体育管理思路,Billy Beane的经营哲学是用极少的资金经营这家俱乐部,他打破常规方法,使用历史数据和数据挖掘方法来构建评价模型,低价购入了那些被低估的球员。使得球队有能力与大名鼎鼎的纽约扬基队竞争市场。


二、体育数据挖掘的历史
体育界中存在着海量的数据,这些数据包括运动员的赛场表现,教练或管理者的决策,赛事以及团队的合作。早期的体育界对数据少有研究,主要是利用行内专家的经验和直觉来进行决策。这些方法充满了主观性和缺陷。之后才慢慢开始结合使用历史数据和一些统计方法。

重要的里程碑就是在2000年,美国职业棒球大联盟的奥克兰运动家队(Oakland Athletics)全面使用数据挖掘方法来衡量每个球员的价值与表现,利用前人未曾用过的模型来选择被低估的球员,在保持球队竞争力的同时降低了球队开支。之后波士顿红袜队也使用数据挖掘方法并获得了成功,使其在建队86年后首次得到了冠军。另一个典型的例子是AC米兰队,他们使用软件来监测球员在训练中的表现,并使用模型来预测他们在赛场上的发挥。

三、体育数据挖掘的主要问题
我们经常说,要去做正确的事而不仅是正确的做事。体育数据挖掘的任务不仅是收集数据,更重要的是考虑应该收集哪些数据,以及如何充分利用它。有效的体育数据挖掘,是从数据中提取有用的信息和知识,并以此来获取竞赛中的优势地位。

体育数据挖掘应该贯穿了整个组织活动,这些活动包括球探利用数据为俱乐部来遴选队员,队员利用视频分析技术来改善动作,教练员利用数据分析和模拟技术来拟定战术战略,甚至外部人士也能利用数据挖掘技术来预测比赛的结果并由此获利。

分析工作的顺利进行面临着一个重要问题,那就是获取正确的数据。首要考虑的问题是设计一个合适的统计量,其次是考虑如何精确的测量该统计量。前者是考虑数据的效度,后者是考虑数据的信度。

设计合适的统计量就是要找到一个合适的函数将真实世界里的赛事情况映射到数字空间,这并不是件容易的事情。很多情况下数字并不能完美的抽象出事物的本质。以文本数据挖掘为例,向量空间方法虽然可以提取文本中关键词的词频矩阵,但用词的先后顺序这种文本信息就丢失了。篮球比赛中通常喜欢用后场篮板这种数据来测量一位球员的防守能力,但看球的人都知道,一位球员获得防守篮板需要其它球员的卡位配合,而卡位动作并没有包括在球员的防守数据之中,其数据测量是有缺陷的。

四、体育数据资源
棒球
http://mlb.mlb.com/index.jsp
http://retrosheet.org/
http://www.baseball-reference.com/
http://baseball1.com/
篮球
www.nba.com
Basketball-reference.com

虽然一些体育组织开始通过先进的数据分析来利用他们的数据,但体育数据挖掘的应用尚处于起步阶段。在未来,赛场将不仅仅由奔跑的球员主宰,在他们身后默默无闻的数据分析师也将发挥重要的作用。

参考资料:
Sports Data Mining
http://en.wikipedia.org/wiki/Moneyball
点球成金(720P)

5 条评论:

  1. 博主能不能举例分析下棒球,足球或者冰球运动的体育数据分析?期待。。。。。

    回复删除
    回复
    1. 体育数据分析得有一定的背景知识,等我弥补一下体育短板先 : )

      删除
  2. 楼主加油!我们支持你。
    我做数据挖掘的异常检测方面,用统计和聚类的方法实现高维检测,
    如果有兴趣,可以共同研究,讨论

    回复删除
  3. 虽然只喜欢足球而非篮球,不过楼主有兴趣的话可以交流。

    体育统计学社区
    http://soccer.oksport.cn

    回复删除