数据科学中的R和Python: 大数据分析的四类陷阱

高科技领域的人们正摩拳擦掌以迎接大数据（Big Data）时代的到来。大数据技术的本质是能够对数十亿的信息进行分析，从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来，其它行业只要具备合适的工具，就能对社会网络进行数据分析。但是事情并非如此简单。首先，分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于，它提升了分析的速度，扩展了数据规模，使小型企业也能使用这种技术。而另一方面，大数据也会造成更严重的错误。针对上例，普林斯顿大学就得出了不同的研究结论：Twitter并不能真的预测票房成绩。

对同一个问题，研究者怎么会得出相反的结论呢？我们来看一下数据分析中最常见的四类陷阱。

1 样本缺乏代表性

大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是：统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高，其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房，其统计结论可能就不会合理了。
提示：确保你得到的样本数据代表了研究总体。否则，你的分析结论就缺乏坚实的基础。

2 事物是变化的

对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果，但这还不够。你应该进行后续实验看能否得到相同的结果，还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候，这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔，在这段时间中Twitter用户有可能发生了改变。同样的道理，如果观察到公司的增长速度发生变化，这有可能是客户群的情绪变化，也可能是使用了错误的数据收集或分析方法。
提示：不要只进行一次分析。要定期验证你之前的结论。

3 理解数据方式不同

惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型，来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术，来研究在三个不同时间段（影片上映之前、期间或观影后）用户的推文情绪特征（正面或负面）。也就是说，这两个研究团队都表示，他们在研究Twitter的预测能力。但实际上，他们除了使用twitter数据之外还利用了其它数据资源，例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起，它或许是预测票房成功的一种影响因素，这要取决于研究人员如何理解和使用它。
提示：一组数据可以提供多种类型的信息。你需要找到不同的解释方式，并加以分析。

4 错误和偏差

人会犯各种错误。有可能是某个研究小组出现了某个错误。例如试图将所有的推文都归为正面或负面的情绪，这种方法也许有些粗糙。又或许研究人员不自觉地选择数据，以支持他们的论点。例如普林斯顿大学研究人员假设，是推文本身而非推文的数量，蕴含着消费者的情绪表达。
提示：不要只使用一种方法。用事实来检验你的假设是否奏效。

大数据技术能很好的改善企业产品和服务，并更好地满足市场。但是，信息需要人来解释，而人的错误有时是致命的。所以大数据是一柄双刃剑，成功与否还得看持剑人的功力。

注：本文摘译自Inc.的一篇文章。

数据科学中的R和Python

页面

星期四, 四月 05, 2012

大数据分析的四类陷阱

没有评论:

发表评论