星期六, 十二月 17, 2011

新书推荐:《Visualize This》

这是一个数据的时代,各种数据铺天盖地涌现出来,如何从中获取有用的信息?人类的大脑喜欢图形,因此将数据可视化或许是种方法。数据可视化是美学、数据分析和专业知识的结合,能以清晰简明而优美的方式讲述数据背后的故事。

如果你对数据可视化感兴趣,那么向你推荐Visualize This这本书。作者Nathan Yau是加州大学洛杉矶分校统计学博士生。同是也是flowingdata.com的创建者。


整体来看这本全彩图书面向可视化的初学者,通过大量的实例一步一步的展示了如何实现可视化。解释了如何收集、分析并格式化数据,然后设计出高品质的图形,帮助你探索并展现数据的各种模式与关系。这本书给我最大的启发就是不要局限于某一种工具,一把锤子建不好一座房子,优美的图形需要多种工具的结合运用,例如R语言与illustrator的结合。但个人觉得可惜的是没有将ggplot2包括在内。

大纲介绍
第一章介绍数据可视化的理念以及相关概念,提出了数据可视化的三个步骤:

  • 提出问题。当你得到一个数据集时,该从何处入手呢?提一个简单的、让你好奇的问题,并从这里开始。
  • 探索你的数据。一个简单的问题往往会衍生出更多的问题引导我们深入挖掘数据。变量是如何相互关联的?数据是随着时间的推移变化吗?数据中是否有脱颖而出的特征?找出所有数字背后模式,你就能讲出更好的故事。
  • 可视化数据。一旦你对数据了如指掌,就可以设计一个最为合适的图形。使用各类图形,颜色,尺度来清楚地讲述你的故事,以飨读者。

第二章介绍如何获取免费数据,讲解了如何用python进行网页数据抓取。
第三章介绍数据可视化所需要的各种工具,并对它们进行了比较定位。
第四章介绍如何对时间序列绘图,用R语言的基本绘图方法构造底图,然后用illustrator进行后期美化。
第五章介绍如何对比例绘图,除了R之外还综合运用了HTML/CSS/JavaScript工具。
第六章介绍如何对关系绘图,还讲解了简单的lattice包应用。
第七章介绍了热图以及通过多维标度方法对数据进行降维。
第八章介绍了空间数据的绘图。
第九章则是对图形设计的小结。

附:数据获取来源
搜索引擎:
google
wolframalpha
一般网站:
www.freebase.com
http://infochimps.org
http://numbrary.com
http://aggdata.com
http://aws.amazon.com/publicdatasets
http://wikipedia.org
国际组织:
http://data.un.org/
http://stats.oecd.org
http://data.worldbank.org/
www.globalhealthfacts.org/
www.who.int/research/en/
政府机构:
http://data.gov/
http://data.gov.uk/
http://nyc.gov/data/
www.census.gov/
大学网站:
http://lib.stat.cmu.edu/DASL/
http://sunsite3.berkeley.edu/wikis/datalab/
www.stat.ucla.edu/data/

如果你想一睹为快,可以到资料下载处找一找,必有惊喜。

2 条评论: