星期六, 十二月 22, 2012

新书推荐:脏数据手册


当你学完一本数据分析软件教程,在电脑上做完了所有的练习题,志得意满地准备去处理实际问题时候,你会被真实世界的“脏数据”所震惊。例如那些随处可见的缺失和格式不一的数据会让分析工作举步维艰,但脏数据的陷阱远不止这些。初入数据江湖的白板青年很需要一本江湖经验手册来帮助成长,而《Bad Data Handbook》正好满足了这种需要。

该书由十九位江湖高手合力联手写成,作者包括了数据分析领域的数据科学家和统计学、物理学、经济学的学术专家,他们分享了自己在处理非常规数据问题的经验和技巧。例如对数据进行分析前的观察测试,如何处理棘手的表格数据,应付各种编码问题,进行网页数据抓取,处理文本数据,以及一些数据质量控制的方法。这些秘诀在一般的传统教科书上是难以见到的。正所谓江湖险恶,要行走数据江湖则必看此书。

星期四, 十二月 13, 2012

来玩玩QQ群的数据

上周COS论坛上有位老兄发布了一个关于QQ群的数据,正好拿来玩玩。这批数据并不复杂,只有两列,一列是用户名,一列是用户发言时间,不过从这批数据中仍然可以得出一些好玩的东西,且让本人一一道来。



星期五, 十二月 07, 2012

推荐两本python书

python虽然不是专门的数据分析工具,但是它的库超多。随着数据分析相关各种库的日益完善,也可以用它来处理一些数据方面的工作,特别在数据预处理方面。这门书号称是数据分析,实际上大部分就是讲的数据处理。介绍了用numpy, pandas等库来实施数据读入、清理、转换、合并等工作。不得不说,pandas的语法真的和R好象啊。不过分析方面没有什么很出彩的地方了。
上面这本是个小册子,专门讲了numpy和scipy两个库,特别还介绍了scikit的一些机器学习用法,值得看一下吧。
连接1连接2