数据科学中的R和Python

星期一, 八月 26, 2013

说英雄谁是英雄之光荣三国

本文的缘起是知乎的这一篇文章，老马这位三国历史专家让大家都知道了有这么一份三国志游戏数据的存在。这份数据很容易从网上找到，而本人只关心三国志四的各人物数据，为什么呢，因为只玩过三国志四嘛。游戏是多年前玩的，如今来玩玩数据吧。下面的问题主要围绕一个焦点，谁是三国志四中文武兼资第一人。

阅读全文 »

星期五, 八月 02, 2013

生存分析(survival analysis)适合于处理时间－事件数据。例如中风病人从首次发病到两次复发，其中就涉及到时间和事件。此例中时间就是复发的时间间隔，事件就是是否复发。如果用普通的线性回归对复发时间进行分析，就需要去除那些没有复发的病人样本。如果用Logistic回归对是否复发进行分析，就没有用到时间这个因素。而生存分析同时考虑时间和事情这两个因素，效果会更好些。

在R语言中我们可以使用survival包进行生存分析，其中主要的函数功能罗列如下：

Surv：用于创建生存数据对象
survfit：创建KM生存曲线或是Cox调整生存曲线
survdiff：用于不同组的统计检验
coxph：构建COX回归模型
cox.zph：检验PH假设是否成立
survreg：构建参数模型

阅读全文 »

培训广告

本月中旬本人将在上海举行一次为期三天的R语言商业培训，有兴趣的朋友可以点这里查看。

星期日, 六月 23, 2013

电影爱好者的R函数

作为一个伪影迷，经常纠结一些电影该不该下，要不要看。毕竟吾生也有涯而片源无涯。还好可以去豆瓣一类的地方看看大家的评分择优录用。去豆瓣查分需要登录网站搜索再鼠标点点点，如果要查好几部电影就有点费事儿。其实可以用R写个函数，先抓取相应的网页，再筛选返回需要的分值。这样在R里头就可以批量查分了，恩，走起来。

library(RCurl)
library(XML)
movieScore <- function(x) {
    stopifnot(is.character(x))
    # 提交搜索豆瓣表单
    search <- getForm("http://movie.douban.com/subject_search", search_text = x)
    searchweb <- htmlParse(search)
    # 解析搜索结果页面
    resnodes <- getNodeSet(searchweb, "//div[@id='wrapper']//table[1]//a")
    if (is.null(resnodes)) 
        return(NULL) else resurl <- xmlGetAttr(resnodes[[1]], name = "href")
    # 得到影片页面后第二次解析
    resweb <- getURL(resurl, .encoding = "UTF-8")
    content <- htmlParse(resweb, encoding = "UTF-8")
    resnodes <- getNodeSet(content, "//div[@id='interest_sectl']//p[@class='rating_self clearfix']//strong")
    namenodes <- getNodeSet(content, "//div[@id='content']//h1//span")
    # 得到影片评分
    score <- xmlValue(resnodes[[1]])
    name <- xmlValue(namenodes[[1]])
    return(list(name = name, score = score))
}

看看天机这部大烂片多少分。

movieScore("天机")

## $name
## [1] "天机·富春山居图"
## 
## $score
## [1] "2.9"

抓网页比较慢，豆瓣为人民群众着想提供了API，我们也可以使用API来调取分数，函数也比较简单。

library(RCurl)
library(XML)
library(RJSONIO)
movieScoreapi <- function(x) {
    api <- "https://api.douban.com/v2/movie/search?q={"
    url <- paste(api, x, "}", sep = "")
    res <- getURL(url)
    reslist <- fromJSON(res)
    name <- reslist$subjects[[1]]$title
    score <- reslist$subjects[[1]]$rating$average
    return(list(name = name, score = score))
}
movieScoreapi("僵尸世界大战")

## $name
## [1] "僵尸世界大战"
## 
## $score
## [1] 7.5

有了这个查分函数，我们可以在R中批量查阅电影评分了。但是豆瓣对于频繁的访问会有限制，对于没有认证的API使用是每分钟10次，超过就会暂时封IP。对于网页抓取，肖楠在第六次R会议上有个很棒的演讲，有兴趣的同学可以去统计之都看看。

星期三, 五月 29, 2013

关于可视化的一个slide

前段时间团队内部讨论，做了一个关于数据可视化的slide，放在下面的链接中，供有兴趣的各位看看吧。ubuntu下chrome效果最佳，可尝试按下ESC看全局。

https://dl.dropboxusercontent.com/u/6547489/vis-ppt/index.html

页面