数据科学中的R和Python: 数据导入

显示标签为“数据导入”的博文。显示所有博文

星期三, 十月 22, 2014

ipython notebook server配置及数据库连接

ipython notebook是个好东西，它的另一优点就是可以在本地用浏览器，去远程连接服务器的计算资源，就类似于Rstudio公司推出的rstudio server的功能。下面记录一下配置步骤：

第一步：服务器上安装ipython系列，推荐是安装anaconda套件，非常方便。安装完毕后将路径加在PATH环境变量中。

第二步：设置notebook server。用在ipython中如下命令设置密码：
from IPython.lib import passwd
passwd()
记下生成的字符串。

第三步：创建一个ipython配置文件，比如起名叫myserver
ipython profile create myserver
vim ~/.ipython/profile_myserver/ipython_notebook_config.py
编辑文件，加入下面几项：
c = get_config()
c.IPKernelApp.pylab = 'inline' #启动inline模式
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.password = u'sha1:yourhashedpassword' #把第二步的密码考进来
c.NotebookApp.port = 9999 #自己设一个端口号

第四步：启动服务
ipython notebook --profile=myserver

最后你就可以在本地浏览器中登陆，输入密码，即可进入ipython notebook。

因为公司的数据库是Oracle的，所以下面的例子没有包括其它的数据库，不过方法类似。

最原始的连接数据库方式是cx_Oracle包，使用pip安装后import进来即可调用，出来的结果是一个list。
import cx_Oracle
conn = cx_Oracle.connect('user','password','ip/dbname')
cr = conn.cursor()
cr.execute('select * from table')
result = cr.fetchall()
cr.close()
conn.close()

对于数据分析而言，方便的调用方式是通过pandas封装的sql接口来做，这样出来的数据直接就是一个dataframe。使用它有几个前提要求
1 安装oracle瘦客户端
2 设置好环境变量，例如ORACLE_HOME和LD_LIBRARY_PATH
3 设置好tnsnames.ora
4 安装sqlalchemy包

设置好以后使用如下例：
import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('oracle://user:password@service_name')
df = pd.read_sql_query('select * from table', engine)

星期五, 十月 10, 2014

python读入csv的三种方式

读数据到python有好几种方法，我们以读取iris.csv为例，将其中的数值部分提取出来。第一种方法是列表理解，文件读取到lines之后用一个嵌套的列表理解就可以将数值存为一个list。第二种方法是使用numpy库，它内带的loadtxt函数，读取的数据都认作是字符串，所以在第二行取我们需要的部分，并转为数值array。第三种方法是使用pandas库，它内带read_csv函数，读取数据会自动判断数值还是字符串，而且会自动保存好变量名，只需要用ix方法就可以类似R一样取出需要的子集，它存为dataframe对象。

这三种方法中最后一种最简单，不过花费时间比较长一点，第一种最麻烦，不过用时最短。这个可以通过ipython中的magic函数%%timeit来看。

星期二, 四月 02, 2013

R连接MySQL数据库方法备忘

R语言连接数据库可以利用数据库的存贮能力和R的计算能力，起到取长补短的效果。之前我们也说过了如何在R中使用SQL，很多教材上也提到了连接MySQL的方法，但是在安装上还需要注意一些细节问题。以下的解决方法也是在网上放狗加撞墙实验得出的结论。

阅读全文 »

星期五, 一月 11, 2013

用XLConnect包操控Excel表格

作为一个R迷，为什么要去捣鼓XLS文件？其实这种需求场景很多的啦，比如其它部门的同事有批量的Excel文件要处理，或者家里一把手的直接命令。Excel里面已经有不少函数可以处理数据了，包括简单的矩阵运算以及透视表什么的，但归根到底它还是需要鼠标点来点去，伤手腕啊。为了保护右手我们要提倡用代码控制一切需要鼠标的动作。高级的Excel玩家可能会用VBA去做自动处理，更高明的玩家则跳出三界外，从外部来控制单位格数据的输入输出。

R语言中有很多包可以处理表格文档，包括最为通用的RODBC包，XLConnect包也是操控Excel文档的利器，功能很丰富。使用该包的前提是要安装好Java，还要在环境变量里搞好设置。之后就可以安装加载包了。我们可以将表格文档看做是数据输入和输出端，R则是中间的运算单元。二者主要是通过数据框格式和工作表单元格进行交换。下面来看将iris数据框写入和读取的示例（其实是翻译的官方文档）。

阅读全文 »

星期二, 十月 09, 2012

在R语言中使用SQL

数据分析经常需要从外部获得数据。很多情况下数据存放在关系型数据库中。一般我们可以用SQL来提取需要的数据，存为文本再由R来读入。这种方式结合了数据库的储存能力和R的分析能力，速度也非常快。但是如果要形成一套可重复性的自动工作流程，则可以将R与外部数据库连接，直接在R中操作数据库，并生成最终结果，这也是一种可行的方法。

在R中连接数据库需要安装其它的扩展包，根据连接方式不同我们有两种选择：一种是ODBC方式，需要安装RODBC包并安装ODBC驱动。另一种是DBI方式，可以根据已经安装的数据库类型来安装相应的驱动。因为后者保留了各数据库原本的特性，所以个人比较偏好用DBI连接方式。有下面这几种主要的包提供了DBI连接：RMySQL，RSQLite，ROracle，RPostgreSQL。由名字看得出它们分别对应了几种主流的数据库。

阅读全文 »

星期五, 九月 21, 2012

抓取网页数据的几种套路

没有数据就没有乐趣。有的数据提供者心肠很好，会直接给出txt或是csv文档。这个时候我们可以直接在R里头用read.table()函数把数据读进来。

有的时候我们需要的数据在网页上以一个表格呈现，例如前面文章遇到过的地震数据。此时可以用XML包中的readHTMLTable()函数读取数据，后续再配合一些字符串处理一般就OK了。

如果你对R不大熟悉，抓取这些表格也有更方便的法子，就是利用Chrome的扩展。有两个扩展值得推荐使用：一个扩展叫作table capture，它会自动找出网页中的若干表格，你只需选择所需的那个将其拷贝到剪贴板即可，然后再用下面的命令就可以读入到R中。
data <- read.table('clipboard',T)

另一个扩展叫作scraper。先选择你所需要的部分内容，然后右键选择scraper similar也能抓取表格，不过它会存到一个google doc中去。在天朝这玩意儿不大方便。

有些数据不是以表格方式出现的，例如用XML或是JSON方式储存的数据。在R中都有对应的包来处理。下面的示例即是用XML包来处理XML数据。在此之先你需要有一点关于XML和XPath的知识，首先处理的对象是这样一个页面：http://www.w3schools.com/xml/plant_catalog.xml

library(XML)
xml.url <- "http://www.w3schools.com/xml/plant_catalog.xml"
# 解析xml页面
xmlfile <- xmlTreeParse(xml.url)
# 观察对象属性
class(xmlfile)
# 获取根结点
xmltop <- xmlRoot(xmlfile)
# 用xmlValue函数获取叶结点处的值
xmlValue(xmltop[[1]][[1]])
xmlValue(xmltop[['PLANT']][['COMMON']])
# xmlSApply类似于sapply函数，取出第一个子结点中的所有叶结点值
xmlSApply(xmltop[[1]],xmlValue)
# 进一步可以取出所有子结点中的叶结点值
plantcat <- xmlSApply(xmltop, function(x) xmlSApply(x, xmlValue))
# 将数据转为数据框
plantcat_df <- data.frame(t(plantcat),row.names=NULL)
plantcat_df[1:5,1:4]

有时候会遇到更为复杂的XML页面，此时的节点内含有参数值。如果要获取这些数据则需要使用getNodeSet()函数配合xmlValue()函数。当遇到更为复杂的数据，那我们只能用readLines读进来，再用字符串函数配合正则表达式来加以处理了。

参考资料：

http://www.omegahat.org/RSXML/Tour.pdf
http://www.stat.berkeley.edu/~statcur/Workshop2/Presentations/XML.pdf

星期四, 五月 03, 2012

日历中的夏天

看着有节，摸着无节--打一生活用品

不知不觉，夏日已慢慢临近。姑娘们飞扬的裙角，小贩叫卖的西瓜，蚊蝇嗡嗡的声音，以及翻过的一页日历，都提醒着你--夏天快来了。夏季有着不同的定义，根据中国人的日历，我们所俗称的夏季从“立夏”开始，到“立秋”结束。在气候学上，若连续五天平均温度超过22度，则算作夏季的开始，若五天平均温度低于22度则算作入秋。而天文学上的夏季一般是指6、7、8三个月。

我们想知道：哪一种夏季的定义更合乎我们的感觉？还是用数据可视化来说话吧。这项任务基本上有两个步骤，一是获取某城市的2011年日平均温度数据，二是根据数据绘制日历热图（Calendar Heatmap）。

阅读全文 »

星期二, 五月 01, 2012

用RJSONIO包调用天气数据

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。易于阅读和编写，同时也易于机器解析和生成。 JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯（包括C, C++, C#, Java, JavaScript, Perl, Python等）。这些特性使JSON成为理想的数据交换语言。目前有许多API服务提供了JSON的数据格式。

如果我们要在R语言中处理json数据，可以采用的扩展包有rjson和rjsonio两个包。从本人感觉来看，rjsonio包要更为友好一些，读取之后可以直接转为简单的list格式，方便调用数据。rjson的话也可以转为list，但其中层次关系复杂，不大方便处理。下面我们用一个例子来看看如何用RJSONIO包调用数据。我们希望编一个函数从wunderground的API调用本地城市的天气预报。其基本步骤如下：

若用户未输入城市名，则根据本机IP地址来返回当地天气；
若用户输入了城市名，则先用google API得到城市经纬度；
再用经纬度作查询参数，来返回该城市天气。

阅读全文 »

星期四, 十一月 17, 2011

如何从EXCEL和SPSS导入数据到R

做分析没有数据真是一大悲剧，正是无源之水、无根之木再加上无米之炊。通常我们搜寻到的数据格式主要有文本格式、Excel格式和SPSS格式。当然也会有从数据库等其它途径进来，这不在本文讨论范围内。

一般的文本格式导入，都可以用read.table命令把数据扔进R里面。Excel和Spss数据的话，可用相应软件将文件打开，观察数据结构后将其复制到剪贴板，然后一样可以用read.table('clipboard')扔到R里面。如果文件太大不好复制，那么可以利用Excel和Spss的导出功能，将数据导出成文本格式。

还有一种情况就是，你的计算机上没有安装Excel或是Spss，这数据导入就要用到RODBC扩展包了。首先装载RODBC包。然后输入数据文件的绝对路径（要注意是用/而不是\）来定义连接，最后用数据抓取命令获取你需要的标签页数据内容(Sheet1)。

阅读全文 »

订阅：博文 (Atom)