数据科学中的R和Python: 新书推荐：脏数据手册

星期六, 十二月 22, 2012

新书推荐：脏数据手册

当你学完一本数据分析软件教程，在电脑上做完了所有的练习题，志得意满地准备去处理实际问题时候，你会被真实世界的“脏数据”所震惊。例如那些随处可见的缺失和格式不一的数据会让分析工作举步维艰，但脏数据的陷阱远不止这些。初入数据江湖的白板青年很需要一本江湖经验手册来帮助成长，而《Bad Data Handbook》正好满足了这种需要。

该书由十九位江湖高手合力联手写成，作者包括了数据分析领域的数据科学家和统计学、物理学、经济学的学术专家，他们分享了自己在处理非常规数据问题的经验和技巧。例如对数据进行分析前的观察测试，如何处理棘手的表格数据，应付各种编码问题，进行网页数据抓取，处理文本数据，以及一些数据质量控制的方法。这些秘诀在一般的传统教科书上是难以见到的。正所谓江湖险恶，要行走数据江湖则必看此书。

5 条评论:

匿名12/23/2012 10:34 下午
吴喜之老师所说的“复杂数据”和这里的脏数据同一概念，哈哈~~
QQ_Bee
回复删除
回复
匿名12/29/2012 2:31 下午
请问博主，是否可以用R来做一比较高效的data cleaning/manipulation的平台呢？特别是当1.变量种类比较多的时候，比如有时间，日期，数值，String；2.数据本身比较大，比如一个csvfile大概800mb.
回复删除
回复

添加评论

页面

星期六, 十二月 22, 2012

新书推荐：脏数据手册

5 条评论: