星期四, 四月 05, 2012

大数据分析的四类陷阱


高科技领域的人们正摩拳擦掌以迎接大数据(Big Data)时代的到来。大数据技术的本质是能够对数十亿的信息进行分析,从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来,其它行业只要具备合适的工具,就能对社会网络进行数据分析。但是事情并非如此简单。首先,分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于,它提升了分析的速度,扩展了数据规模,使小型企业也能使用这种技术。而另一方面,大数据也会造成更严重的错误。针对上例,普林斯顿大学就得出了不同的研究结论:Twitter并不能真的预测票房成绩。

对同一个问题,研究者怎么会得出相反的结论呢?我们来看一下数据分析中最常见的四类陷阱。

1 样本缺乏代表性

大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是:统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高,其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房,其统计结论可能就不会合理了。
提示:确保你得到的样本数据代表了研究总体。否则,你的分析结论就缺乏坚实的基础。

2 事物是变化的

对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果,但这还不够。你应该进行后续实验看能否得到相同的结果,还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候,这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔,在这段时间中Twitter用户有可能发生了改变。同样的道理,如果观察到公司的增长速度发生变化,这有可能是客户群的情绪变化,也可能是使用了错误的数据收集或分析方法。
提示:不要只进行一次分析。要定期验证你之前的结论。

3 理解数据方式不同

惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型,来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术,来研究在三个不同时间段(影片上映之前、期间或观影后)用户的推文情绪特征(正面或负面)。也就是说,这两个研究团队都表示,他们在研究Twitter的预测能力。但实际上,他们除了使用twitter数据之外还利用了其它数据资源,例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起,它或许是预测票房成功的一种影响因素,这要取决于研究人员如何理解和使用它。
提示:一组数据可以提供多种类型的信息。你需要找到不同的解释方式,并加以分析。

4 错误和偏差

人会犯各种错误。有可能是某个研究小组出现了某个错误。例如试图将所有的推文都归为正面或负面的情绪,这种方法也许有些粗糙。又或许研究人员不自觉地选择数据,以支持他们的论点。例如普林斯顿大学研究人员假设,是推文本身而非推文的数量,蕴含着消费者的情绪表达。
提示:不要只使用一种方法。用事实来检验你的假设是否奏效。

大数据技术能很好的改善企业产品和服务,并更好地满足市场。但是,信息需要人来解释,而人的错误有时是致命的。所以大数据是一柄双刃剑,成功与否还得看持剑人的功力。

注:本文摘译自Inc.的一篇文章

1 条评论:

  1. Are you looking for free Twitter Re-tweets?
    Did you know you can get these ON AUTOPILOT & TOTALLY FOR FREE by getting an account on Like 4 Like?

    回复删除