数据科学中的R和Python

星期二, 一月 31, 2012

什么是大数据（下）

续前文，大数据的特征除了规模以外还有快速和多样

快速（Velocity）

数据流入组织的速度越来越快，这使得数据的速度和规模同样重要。以前只有少数行业如金融交易公司需要关注快速传输数据，那么现在许多行业都将面临这个问题。

其原因何在？因为如今我们处于互联网和移动时代，网络会记录下人们对各种产品和服务的消费，这样产生了大量的数据并流回到供应商手中。例如网上零售商就能够记录下客户的每一次点击和交互。那些能够迅速地利用这些信息的企业就能获得竞争优势。智能手机时代的出现则再次增加了数据流入的速度，因为消费者能随身携带它们以获取地理信息数据。

阅读全文 »

星期一, 一月 30, 2012

什么是大数据（上）

大数据（Big Data）是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。

数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。

对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息，例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息，定制出高度个性化的用户体验，并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook，它们都是大数据时代的创新者。

阅读全文 »

星期日, 一月 29, 2012

ggplot2绘图入门系列之五：时间序列（完）

ggplot2包也能对时间序列数据绘图，但在处理上需要有些注意的地方。下面我们以上证指数为例进行作图，首先利用quantmod包从yahoo数据源获取从1997年以来的数据，存于变量SSEC中，抽取收盘数字，然后分别提取时间数据和指数数值，绘图结果如下图。

library(quantmod)
library(ggplot2)
getSymbols('^SSEC',src='yahoo',from = '1997-01-01')
close <- (Cl(SSEC))
time <- index(close)
value <- as.vector(close)
p <- ggplot(data.frame(time,value),aes(time,value))
p + geom_line()

阅读全文 »

星期五, 一月 27, 2012

ggplot2绘图入门系列之四：再说散点图

在前文中已初步介绍了散点图的绘制方法，本文介绍一些细节方面的参数设置。

1 色彩和形状的控制
数据特征不仅可以用坐标来表示，也可以用不同的色彩或形状来表示。仍以mpg数据集为例，所用到的变量有cty（城市中行驶距离）,hwy（高速路行驶距离）,displ（排量大小）,year（生产年份）

library(ggplot2)
p <- ggplot(mpg, aes(cty, hwy))
p1 <- p + geom_point(aes(colour = factor(year),shape = factor(year), size = displ), alpha = 0.6, position = 'jitter')
print(p1)

阅读全文 »

星期四, 一月 19, 2012

ggplot2绘图入门系列之三：位置调整与条形图

位置调整（Position adjustments）是针对同一图层内元素的位置进行微调的方法。它包括五种设置，分别是stack、dodge、fill、identity、jitter。

我们用条形图来展示其用法，仍使用mpg数据集，其中用到的变量是class，即生产汽车的类型，以及year生产年份。下面的条形图是将各类型的汽车数量进行汇集，并以年份作为分组变量。我们首先载入扩展包，然后用频数表对数据进行大致的了解，最后绘制了四种条形图。

library(ggplot2)
with(mpg,table(class,year))
p <- ggplot(data=mpg,aes(x=class,fill=factor(year)))
p + geom_bar(position='dodge')
p + geom_bar(position='stack')
p + geom_bar(position='fill')
p + geom_bar(position='identity',alpha=0.3)