星期二, 二月 21, 2012

新书推荐:大数据时代的工具集


该书简要介绍了60多种大数据相关的工具,从NoSQLMapReduce,以及各种机器学习和可视化工具。初看这本书封面的时候很容易被唬住,以为又是O'Reilly出的一本大作。实际上它只是一本超薄的小册子,或者更准确的说,是一篇超长的文章。对于业界专家来讲,这本书可能不值一晒,但对于想跨进Big Data大门的初学者,此书还是有一些参考价值。至于在哪可以得到这本书,你懂的。

本书目录:

1.相关术语
2.非关系数据库
MongoDB、BigTable、HBase、Hypertable等数据库工具
3.MapReduce
Hadoop、Hive、Pig、Cascading、S4、MapR等架构。
4.存储
S3和Hadoop Distributed File System
5.服务器
EC2、Google App Engine、Elastic Beanstalk、Heroku
6.分析处理
R、Yahoo! Pipes、Mechanical Turk等数据处理工具。
7.自然语言处理
Natural Language Toolkit、OpenNLP、Boilerpipe、OpenCalais
8.机器学习
WKA、Mahout、scikits.learn
9.可视化
Gephi、GraphViz、Processing、Tableau
10.数据获取
Google Refine、Needlebase、ScraperWiki
11.序列化
JSON、BSON、Thrift、Avro、Protocol Buffers

5 条评论:

  1. 偶在图书馆借到Analyzing business data with excel...同一个出版社的,书皮也有个海狸样子的神兽...博主推荐的这一本书,学习后可以应用在business么?好专业哦!

    回复删除
    回复
    1. O'Reilly出的书其封面都是神兽,这个小册子里面主要是一些名词解释,用来忽悠人还可以,应用的话还太浅,但不失为一个导引吧。Excel作为入门的数据分析软件还是不错的,容易学而且进阶的话也可以用VBA宏,可以完成很多工作的。

      删除
  2. 请教博主有木有关于VBA宏的好书推荐?

    回复删除
  3. 这要看不同的专业方向,有偏数据管理的,有偏运筹优化的。如果是金融方向,我推荐《基于Excel和VBA的高级金融建模》

    回复删除
  4. 嗯这本书不错,正在看中。

    回复删除