星期四, 三月 01, 2012

重磅推荐:《机器学习之黑客帝国》


好吧,我承认这个书名翻译的有点霸气,但它的确是配得上这个名头。《Machine Learning for Hackers》是由O'Reilly出版的关于机器学习领域中R语言应用的新书。 在这里所谓的“黑客”并非是喜欢侵入计算机的那帮人,而是那些“喜欢用新技术来解决问题”的人。而机器学习通常与数据挖掘、知识发现等术语一同使用,往往被认为是一个黑箱,它们广泛利用各种算法来进行数据预测或分类。

这本书利用了统计分析方法来打开这个黑箱,并解决现实生活中的预测和分类问题。该书并没有过分纠缠于公式与原理,也绝不仅是提供一个菜单式操作的傻瓜书。该书取中庸之道,以机器学习的原理应用为重点,结合大量R语言编程和案例,使读者更好地理解如何解决问题,以及为什么可以这样做。本书重点不仅覆盖了各种建模方法,而且而示范了真实的数据分析工作中会遇到的障碍,例如数据清理和转换。

该书假定读者熟悉R语言编程、统计学知识和一般的机器学习算法,所以阅读的难度不小。R语言程序代码的量很大,而且涉及到的领域也很广,给人的启发很多,极有参考价值。另外书中所有的图形都由ggplot2绘图包制成,这不仅有助于解释算法,而且有助于用户在数据建模过程中的可视化。

但它在篇章编排上似乎有点问题,难度不是慢慢上升,而是起伏不平。例如第二章还是在讲很基本的均值概念,第三章就突然跳到文本挖掘和朴素贝叶斯分类器。后面的线性回归和主成份分析又归于平淡,之后的社交媒体图分析又是奇峰凸起。所以读者需要相当的基本功,不论是R语言的基础,还是统计分析的基础。

大纲一览:

  • 第一章:对R语言的简介
  • 第二章:数据探索分析,介绍了基本的均值、方差等统计概念,还展示了R可视化能力
  • 第三章:过滤垃圾邮件。利用朴素贝叶斯分类算法来学习过滤垃圾邮件,展示了R语言处理文本中遇到的各种问题和解决思路,极有价值。
  • 第四章:识别邮件优先等级。同样是文本挖掘的方面,利用邮件中包含的信息获取权重,并建立邮件的等级顺序,颇有难度。
  • 第五章:线性回归,比较一般。
  • 第六章:用LASSO方法来减少多元线性模型的复杂度,由此避免过度拟合,还谈到了岭回归和多重交叉检验,非常精彩。
  • 第七章:用最优化来破解加密文本,实现了随机优化的思路,原来R语言还可以这么用的,太神奇了。
  • 第八章:用主成分分析来建立股票市场指数,平淡。
  • 第九章:利用多维标度分析来探究政治人物的关系,还不错。
  • 第十章:用最近邻方法来建立推荐系统,有点意思。
  • 第十一章:用Twitter等数据来分析社会网络图,大开眼界了。
  • 第十二章:支持向量机与算法的比较,上佳的案例分析,正在阅读之中。

这里有该书的所有代码与数据,如果你想购买请点这里,如果你想吃免费午餐,到我的博客找找吧。

4 条评论:

  1. 作者之一的Drew Conway很厉害,R社区的活跃人物,写一本这样的书的确符合他的风格。

    回复删除
  2. 准备好好学习这本书。R是灰常的强大的

    回复删除
  3. 想请教一下,在第六章的最后,作者用logistic regression来做了一个classifier,结果这个classifier的正确率只有50%, 实际上就是这个classfier基本上就是全部标记成0。 而作者却认为这是“极大的成功”。是不是作者脑袋短路搞错了。。。

    另外,在第三章中,作者把几万个0,1之间的double一下乘在一起,完全不顾浮点精度的问题,我自己动手修改了一下,改为边乘边除,classfier的准确率就从70%提高到了90%。

    我不得不对作者的水平,或者写书的认真程度产生极大的怀疑。

    回复删除
  4. 如果您认为您的配偶在作弊,并且您需要聘请真正的黑客来远程监控/黑客他们的电话,恢复被盗的比特币/任何其他加密货币或在保证隐私的情况下入侵数据库,请联系easybinarysolutions@gmail.com或whatsapp: +1 3478577580,他们高效而机密。

    回复删除