星期日, 一月 19, 2014

一份数据挖掘小书评

书看得多了,渐渐有了品味,所以看那些英文版的时候也不再有很膜拜的感觉。不过再差的书,总会有些许长处或教训,值得借鉴。下面列出一些在数据挖掘实现方面的书,主要是基于R和python的。


  • Data mining with R Learning with Case studies: 我的启蒙书,很好的案例教学,这种书应该出更多些。
  • Data Mining Applications with R: 风格类似上面,多人合作的案例讲解,非常不错,就是每个例子略为简短了一点。
  • Machine Learning for Hackers: 也是以案例为主,但是内容质量不能保持在同一水准上,代码讲的比较细。
  • An Introduction to Statistical Learning: 比较系统的讲解了统计学习的内容,以及相应的R包函数,优点在于有习题。
  • Machine Learning with R: 同样是系统的列出各机器学习算法对应的R包函数,直观理解很好,而且讲了一些caret包的使用。比较新的书。
  • Applied predictive modeling: 对预测算法讲的最细,涉及R包最多,由于作者是caret的开发者,所以要学习caret则必看此书。
  • Big Data Analytics with R and Hadoop: 刚出的大数据挖掘书籍,讲解了如何用RHadoop来整合R和hadoop,什么时候会有R和spark的书出来啊。

  • programming_collective_intelligence: 有些年头的书了,但确实是经典,原理讲的简洁,就讲python代码实现,喜欢这种风格。
  • Machine Learning in Action: 和上面风格类似,不过实现是主要基于python的numpy库,这样代码量要精简很多,也很好。
  • Python for data analysis: 主要讲pandas库,精彩例子不多,可以直接去看帮助文档。
  • Learning scikit-learn Machine Learning: 主要以scikit-learn扩展库为工具做机器学习,比较简单,可以直接去看帮助文档。
  • Building Machine Learning Systems with Python: 和上面那本类似,讲函数功能为主,原理直觉没涉及到。

5 条评论:

  1. 言简意赅,总结的很精彩。
    除了python的,我也基本读过。个人比较喜欢
    intro to statlearning, 相比elements更易读, 两本相得益彰。
    applied predictive modeling 是精品一枚,感觉作者 Max Kuhn 功力相当深厚。应该说要学此书必用caret。
    其他以case study为主的读完基本很快忘掉,相反倒是记得有一本explore everyday things with R and Ruby里面例子十分考究。

    回复删除
    回复
    1. 那本里有一个讲测心跳的案例十分精彩!

      删除
  2. rss里面的链接有问题,指向的是 http://xccds1977.blogspot.com/index.html2014/01/blog-post.html

    回复删除
  3. Data mining with R Learning with Case studies也是我的启蒙书,很喜欢的风格,简单明了

    回复删除