星期六, 十二月 22, 2012

新书推荐:脏数据手册


当你学完一本数据分析软件教程,在电脑上做完了所有的练习题,志得意满地准备去处理实际问题时候,你会被真实世界的“脏数据”所震惊。例如那些随处可见的缺失和格式不一的数据会让分析工作举步维艰,但脏数据的陷阱远不止这些。初入数据江湖的白板青年很需要一本江湖经验手册来帮助成长,而《Bad Data Handbook》正好满足了这种需要。

该书由十九位江湖高手合力联手写成,作者包括了数据分析领域的数据科学家和统计学、物理学、经济学的学术专家,他们分享了自己在处理非常规数据问题的经验和技巧。例如对数据进行分析前的观察测试,如何处理棘手的表格数据,应付各种编码问题,进行网页数据抓取,处理文本数据,以及一些数据质量控制的方法。这些秘诀在一般的传统教科书上是难以见到的。正所谓江湖险恶,要行走数据江湖则必看此书。

5 条评论:

  1. 吴喜之老师所说的“复杂数据”和这里的脏数据同一概念,哈哈~~
    QQ_Bee

    回复删除
  2. 请问博主,是否可以用R来做一比较高效的data cleaning/manipulation的平台呢?特别是当1.变量种类比较多的时候,比如有时间,日期,数值,String;2.数据本身比较大,比如一个csvfile大概800mb.

    回复删除
    回复
    1. R可以做,但R并不是最高效的清理抓取工具。

      删除
    2. 那么哪个是更高效的工具?

      删除
    3. java啊,python啊,包括linux下面的shell。

      删除