数据科学中的R和Python

星期二, 七月 31, 2012

用igraph包探索世界航空网络

本文使用的数据仍然是上篇博文中用到的世界航班数据，不过本例不再仅限于中国国内航班。如果用社交网络的角度来观察数据，一个机场可以看作是一个人，而机场之间的来往航班可以看作是人与人之间的某种联系。整体世界的航线可以看作是一个社交网络。那么用R语言的igraph包来简单探索一下这个社交网络，看能不能得到什么发现。现在星图真得很热门，所以本文最后也会搞一个山寨出来。

阅读全文 »

星期四, 七月 26, 2012

中国国内航线信息的可视化

上图是对国内机场和航线信息进行了一个简单的可视化。圆点表示了中国163个机场的位置，线条显示了5381条航线。之前曾在这个网站上见到了作者用R语言来对全世界的航线进行可视化。正所谓见贤思齐，本图就是模仿山寨的结果。但是这个图的生成没有原文那么复杂，所用到的地理图形包和步骤也与原例略有不同，比较失败的是没有展现出原图的夜景效果。具体实施的步骤如下：

从这个网站下载到机场数据和航线数据；
从中挑选出中国的机场和国内航线，并加以整理；
用ggmap包读取谷歌地图；
将机场和航线信息绘制在地图上。

阅读全文 »

星期三, 七月 25, 2012

《Machine Learning for Hackers》一书的合著者John Myles White近日接受了一个访谈。在访谈中他提到了自己在R中常用的几个扩展包，其中包括用ggplot2包来绘图，用glmnet包做回归，用tm包进行文本挖掘，用plyr、reshape、lubridate和stringr包进行数据预处理。这些包本博客大部分都有所介绍，今天就来看看这个遗漏的stringr包。

从名字就看得出，stringr包是用来处理字符串的。R语言本身的字符处理能力已经不错了，但使用起来并不是很方便。stringr包将原本的字符处理函数进行了打包，统一了函数名和参数。在增强功能基础上，还能处理向量化数据并兼容非字符数据。stringr包号称能让处理字符的时间减少95%。下面将其中的一些主要函数罗列一下。

library(stringr)
 
# 合并字符串
fruit <- c("apple", "banana", "pear", "pinapple")
res <- str_c(1:4,fruit,sep=' ',collapse=' ')
str_c('I want to buy ',res,collapse=' ')
 
# 计算字符串长度
str_length(c("i", "like", "programming R", 123,res))

阅读全文 »

星期一, 七月 23, 2012

来玩一玩全球500强排行榜数据

金融时报在7月20日公布了全球500强排行榜。根据这个数据尝试回答下面的一些问题。

1. 哪个行业的上榜公司最多？

看得出来，银行、石油、制药是前三强。

阅读全文 »

星期五, 七月 20, 2012

用gbm包实现随机梯度提升算法

中国有句老话：三个臭皮匠，顶个诸葛亮。这个说法至少在变形金刚中得到了体现，没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领域也是如此，一堆能力一般的“弱学习器”也能组合成一个“强学习器”。前篇文章提到的随机森林就是一种组合学习的方法，本文要说的是另一类组合金刚：提升方法(Boosting)。提升方法是一大类集成分类学习的统称。它用不同的权重将基学习器进行线性组合，使表现优秀的学习器得到重用。在R语言中gbm包就是用来实现一般提升方法的扩展包。根据基学习器、损失函数和优化方法的不同，提升方法也有各种不同的形式。

自适应提升方法AdaBoost
它是一种传统而重要的Boost算法，在学习时为每一个样本赋上一个权重，初始时各样本权重一样。在每一步训练后，增加错误学习样本的权重，这使得某些样本的重要性凸显出来，在进行了N次迭代后，将会得到N个简单的学习器。最后将它们组合起来得到一个最终的模型。

梯度提升方法Gradient Boosting
梯度提升算法初看起来不是很好理解，但我们和线性回归加以类比就容易了。回忆一下线性回归是希望找到一组参数使得残差最小化。如果只用一次项来解释二次曲线一定会有大量残差留下来，此时就可以用二次项来继续解释残差，所以可在模型中加入这个二次项。

同样的，梯度提升是先根据初始模型计算伪残差，之后建立一个基学习器来解释伪残差，该基学习器是在梯度方向上减少残差。再将基学习器乘上权重系数(学习速率)和原来的模型进行线性组合形成新的模型。这样反复迭代就可以找到一个使损失函数的期望达到最小的模型。在训练基学习器时可以使用再抽样方法，此时就称之为随机梯度提升算法stochastic gradient boosting。

阅读全文 »

数据科学中的R和Python

页面

星期二, 七月 31, 2012

用igraph包探索世界航空网络

星期四, 七月 26, 2012

中国国内航线信息的可视化

星期三, 七月 25, 2012

用stringr包处理字符串

星期一, 七月 23, 2012

来玩一玩全球500强排行榜数据

星期五, 七月 20, 2012

用gbm包实现随机梯度提升算法