星期五, 十月 28, 2011

R语言基础入门之一:引言

1 什么是R语言
R语言是一个开源的数据分析环境,起初是由数位统计学家建立起来,以更好的进行统计计算和绘图,这篇wiki中包含了一些基本情况的介绍。由于R可以通过安装扩展包(Packages)而得到增强,所以其功能已经远远不限于统计分析,如果感兴趣的话可以到官方网站了解关于其功能的更多信息。

至于R语言名称的由来则是根据两位主要作者的首字母(Robert Gentleman and Ross Ihaka),但过于简短的关键词也造成在搜索引擎中很不容易找到相关的资料。不过这个专门的搜索网站可以帮到你。


2 为什么要学习R语言
可能你想说,“我已经学会了spss/sas/stata...,为什么还要去学习R呢?”如下几方面可能会吸引到你:

  • R是免费开源软件:现在很多学术期刊都对分析软件有版权要求,而免费的分析工具可以使你在这方面不会有什么担心。另一方面,如果学术界出现一种新的数据分析方法,那么要过很长一段时间才会出现在商业软件中。但开源软件的好处就在于,很快就会有人将这种方法编写成扩展包,或者你自己就可以做这件工作。
  • 命令行工作方式:许多人喜欢类似SPSS菜单式的操作,这对于初学者来说很方便入门,但对于数据分析来说,命令行操作会更加的灵活,更容易进行编程和自动化处理。而且命令行操作会更容易耍酷,不是嘛,一般人看到你在狂敲一推代码后得到一个分析结果,对你投来的目光是会不一样的。
  • 小巧而精悍:R语言的安装包更小,大约不到40M,相比其它几个大家伙它算是非常小巧精悍了。目前R语言非常受到专业人士欢迎,根据对数据挖掘大赛胜出者的调查可以发现,他们用的工具基本上都是R语言。此外,从最近几次R语言大会上可以了解到,咨询业、金融业、医药业都在大量的使用R语言,包括google/facebook的大公司都在用它。因此,学习R语言对你的职业发展一定是有帮助的。

3 R语言的下载和GUI界面
R语言安装包可以在官方网站下载,windows版可直接点击这个连接
在ubuntu下面安装R则更容易,在终端里头运行如下命令即可
sudo apt-get update
sudo apt-get install r-base

此外,学习R语言时强烈推荐安装Rstudio做为R的图形界面,关于Rstudio之前的博文有过简单介绍,点这里可能转到它的官方网站。


4 R语言的学习方法
学习R并不是一件非常轻松的事情,初学者需要记住的就是:

  • 亲手键入代码并理解其意义
  • 在笔记里记下一些重点或心得(个人推荐Evernote)
  • 坚持练习,对手边的数据进行应用分析
  • 理解背景知识,细节很重要。

5 哪里可以得到参考资料
1.官方网站 http://cran.csdb.cn/index.html (官方文献集中地)
2.统计之都论坛
3.人大经济论坛-R子论坛 (免费资料也不少)
4.http://library.nu/ 这是网上电子书最多的地方,其中有一个R语言专门书柜(也就是一个shelves)
5.关于R语言的教材小结
6.笔者在verycd上发的一个书单
7.一个国外著名的R语言群博 http://www.r-bloggers.com/
8.展示R语言的各类绘图 http://addictedtor.free.fr/graphiques/
本人博客里也有一些关于R语言的资料:xccds1977.blogspot.com (需翻墙)
如果有一些简单的入门问题,也可以在推特上follow me twitter: @xccds

6 本系列博文的目的
本系列入门的目的是为初学者提供最简洁清晰的资料,以迅速入门。所针对的读者人群是那些正在大学里学习初级统计学的同学。本系列计划包括内容有:基本命令,数据操作;描述统计和绘图;重要的R语言函数计算;统计推断和估计;非参数统计方法;方差分析;线性回归和一般线性模型。

2 条评论:

  1. Evernote是个不错的软件,跨平台非常好,不过编辑功能稍差,如果不在乎花里乎哨功能的话,网易云笔记我看就行,容量还大。我现在用Wiz也很好,编辑功能更强。

    回复删除
  2. 为什么没有一本正式出版的书写成像楼主笔记这样的呢?花钱买也好啊!

    回复删除