数据科学中的R和Python: 编程

显示标签为“编程”的博文。显示所有博文

星期六, 三月 16, 2013

灰色模型的R代码

最近帮朋友写了一个灰色模型GM(1,1)的R实现，参考网上现有的matlab代码，比较容易就可以弄出来。下面是具体过程，主函数是GM()，建立的模型是一个S3类，搭配两个自定义的泛型函数print和plot可以得到结果输出和图形。

# 本代码用来计算GM(1,1)灰度模型
# 输入：x 原始数据，adv为外推预测步长
# 输出：actual 原始数据，fit 拟合数据,degree 拟合精度，
#       C 后验差比值，P 小概率误差，predict 外推预测值
 
 
# 主函数
GM <- function(x,adv=0) {
    x0 <- x
    k = length(x0)
    # AGO
    x1 = cumsum(x0)
    # construct matrix B & Y
    B = cbind(-0.5*(x1[-k]+x1[-1]),rep(1,times=k-1))
    Y = x0[-1]
    # compute BtB...
    BtB = t(B)%*%B
    BtB.inv = solve(BtB)
    BtY = t(B)%*%Y
 
    # estimate
    alpha = BtB.inv%*%BtY
 
    # 建立预测模型
 
    predict <- function(k) {
        y = (x0[1] - alpha[2]/alpha[1])*exp(-alpha[1]*k)+alpha[2]/alpha[1]
        return(y)
    }
    pre <- sapply(X=0:(k-1),FUN=predict)
    prediff <- c(pre[1],diff(pre))
    # 计算残差
    error <- round(abs(prediff-x0),digits=6)
    emax <- max(error)
    emin <- min(error)
    # 模型评价
    incidence <- function(x) {
         return((emin + 0.5*emax)/(x+0.5*emax))
    }
    degree <- mean(sapply(error,incidence))
 
    s1 <- sqrt(sum((x0-mean(x0))^2)/5)
    s2 <- sqrt(sum((error-mean(error))^2)/5)
 
    C <- s2/s1
 
    e <- abs(error-mean(error))
    p <- length(e<0.6745)/length(e)
 
    result <- list(actual = x0,
                   fit = prediff,
                   degree = degree,
                   C = C,
                   P = p)
 
    # 外推预测第k+adv项
    if (adv > 0) {
        pre.adv <- predict(k+adv-1)-predict(k+adv-2)
 
        result$predict <- pre.adv
     }
    class(result) <- 'GM1.1'
    return(result)
}
 
# 增加对应gm1.1类的泛型函数 print & plot
print.GM1.1 <- function(mod){
    cat('the result of GM(1,1)\n')
    cat('Actual Data:', '\n',mod$actual ,'\n')
    cat('Fit Data:', '\n',round(mod$fit,2) ,'\n')
    cat('Degree:', round(mod$degree,3) ,'\n')
    cat('C:', round(mod$C,3) ,'\n')
    cat('P:', round(mod$P,3) ,'\n')
    if (!is.null(mod$predict)) {
        cat('Predict Data:', round(mod$predict,2), '\n')
    }
}
 
plot.GM1.1 <- function(mod,adv=5){
    prex <- numeric(adv)
    x <- mod$actual
    for (k in 1:adv){
        prex[k] <- GM(x,k)$predict    
    }
 
    value = c(x,prex)
 
    res <- data.frame(index = 1:length(value),
                      value = value,
                      type = factor(c(rep(1,length(x)),rep(2,length(prex)))))
    library(ggplot2)
    p <- ggplot(res,aes(x=index,y= value))
    p + geom_point(aes(color=type),size=3)+ 
        geom_path(linetype=2) +
        theme_bw()
}
 
 
# 原始数据
x = c(26.7,31.5,32.8,34.1,35.8,37.5)
 
# 预测第7项
res <- GM(x,1)
print(res)
plot(res,3)

星期日, 一月 20, 2013

看别人的代码会遇到一些奇葩的函数，一般的教程上很少提到，但却有很好的用处，这类函数基本上分布在base以及utils包中，下面将它们略为归纳一下，以备后用。

1，文件执行：
在用R生成一个PDF文档后，如果想去打开它，你可能会在文件夹里找到再点开。再或者我们想调用系统中的其它程序来做点事情，可能要打开cmd敲点命令。实际上这都可以在R内部完成。举例来说用pandoc转换na.md成docx再打开它。
system('pandoc d:\\rspace\\na.md -o d:\\rspace\\na.docx')
shell.exec('d:\\rspace\\na.docx')

2，网络浏览：
browseURL：浏览某个指定的网页
download.file：下载网络文件到本地

3，文件操作
dir.create：新建一个文件夹
list.dirs：显示目录下的文件夹
list.files：显示目录下的文档
file.create：文档创建
file.exists：判断文档是否存在
file.remove：文档删除
file.rename：重命名
file.append：文档添加
file.copy：文档复制
file.symlink(from, to)
file.show：显示文档内容
file.info：显示文档信息
file.edit：编辑文档
zip：压缩文件
unzip：解压缩文件

4，运算进度条
在一个大循环运算时，如果可以看到目前的进度是比较方便的，txtProgressBar和setTxtProgressBar函数可以帮助做到这一点，下面是内置的一个小例子：

testit <- ...="..." function="function" p="p" x="sort(runif(20)),">{
pb <- p="p" txtprogressbar="txtprogressbar"> for(i in c(0, x, 1)) {Sys.sleep(0.5); setTxtProgressBar(pb, i)}
Sys.sleep(1)
close(pb)
}
testit()

星期日, 九月 02, 2012

笨办法学R编程（6）

有时候用R来解一些Project Euler的题目会非常简单，今天就来三题连解（6、7、8）。题目就不再这里复述了，可以查看官方网站。用到函数和表达式大部分在前面都已经熟悉过了，不过还是会接触到一些新的函数。废话不多说直接上代码吧。

# Euler 6  
x <- 1:100
sum(x)^2 - sum(x^2)
 
# Euler 7 
 
n <- 0
i <- 1
m <- rep(0,10001)
while (n <10001) {
    if (findprime(i)) {
        n <- n +1 
        m[n] <- i}
    i <- i + 1
}
m[10001]
 
# 预备练习，熟悉一些字符串操作函数
text <- c('hello','world','I','love','code')
gsub('o',' ',text)
gsub('o','*',text)
gsub('o','',text)
 
(temp1 <-paste(text,collapse=' '))
paste(text,collapse='*')
paste(text,collapse='')
 
(temp2 <- strsplit(temp1," "))
class(temp2)
(temp3 <- unlist(strsplit(temp1," ")))
class(temp3)
 
# Euler 8 
 
web <- 'http://projecteuler.net/problem=8'
# 用readLines函数来抓取网页
raw <- readLines(web)
raw <- raw[54:73]
# 删除多余字符串
data <- gsub('<br />','',raw)
# 粘合成一个字符串
num <- paste(data,collapse='')
# 分割后转为数值向量
temp <- as.numeric(unlist(strsplit(num,'')))
 
p <- numeric()
for ( i in 1:(1000-4)) {
    p[i] <- prod(temp[i:(i+4)])
}
max(p)

第六题用R的向量化计算非常简单，第七题需要用到第二题中建立的findprime函数。第八题的解决是用字符串方法，先将那一长串数字作为字符串切开，再转为数值型向量，最后用循环求乘积。为了偷懒，是直接抓取的网页，没有输入那个长长的数字。

星期六, 八月 25, 2012

笨办法学R编程（5）

随着教程推进，基本的语法都接触得差不多了。当要解决某个具体问题时，只需要考虑用什么样的算法来整合运用这些函数和表达式。今天来解决Project Euler的第五个问题，该问题可以用很笨的暴力搜索法子来作，但是更聪明的作法是采用质因子分解的思路。即任何一个合数都可以分解为质数的乘积。为了完成这个题目，还需要学习一点点矩阵，以及和sapply函数相似的另一个函数apply。

# 预备练习
mat <- matrix(1:12,ncol=4)
print(mat)
t(mat)
colnames(mat) <- c('one','two','three','four')
rownames(mat) <- c('a','b','c')
print(mat)
apply(mat,1,sum)
apply(mat,2,sum)
sum(apply(mat,2,sum))
prod(apply(mat,2,sum))

页面

星期六, 三月 16, 2013

星期日, 一月 20, 2013

星期日, 九月 02, 2012

星期六, 八月 25, 2012

星期三, 八月 22, 2012

星期一, 八月 20, 2012

星期六, 八月 18, 2012

星期五, 八月 17, 2012

星期二, 三月 27, 2012

星期三, 三月 21, 2012

星期五, 三月 16, 2012

星期三, 二月 29, 2012

星期二, 二月 28, 2012

星期一, 二月 27, 2012

星期五, 二月 24, 2012

星期三, 二月 22, 2012

星期四, 一月 05, 2012

概要: R编码风格约定