数据科学中的R和Python: rapidminer数据挖掘入门之二：数据导入、预处理和绘图

星期四, 十月 20, 2011

rapidminer数据挖掘入门之二：数据导入、预处理和绘图

1 基本概念
当安装软件时rapidminer会问你新建库文件在所在地，也就是Repositories，它相当于是用户的所有资料存放地。库中主要存放两种资料：一种是建模需要的数据（Data），另一种是建模用到的模型，或称为流程（Processes）。在安装完软件后，用户可以从Repositories下面看到sample文件，里面提供了用来练习用的数据和模型。

2 数据导入
数据导入有两种方式：
第一种是在Repositories菜单中点击import，可以读取CSV等五种格式数据，导入后以data形式存在库中，可随时拖拽到主流程图中调用，将会显示为Retrieve。

第二种是以算子（Operators）形式导入，从算子中的import类中可以选择十几种导入算子拖拽到主流程图中，然后在设置窗口确定资料来源。

3 数据预处理
数据预处理主要通过Data Transformation算子实现中，其中包括了这样几个大类：

重定义，在数据导入时软件会让你定义哪些属于预测变量，哪些属于响应变量，如果在导入阶段没有定义，则可以在预处理阶段用（Set Role）算子进行再定义，否则会无法进行分类建模。
数据类型转换，数据大致上可分为数值（numerical）、两类(Binomial)、多类(Polynomial)数据，有时候希望相互转换，这就要用到Type Conversion类的算子来处理。
数据标准化，标准化数据和还原是经常用到的功能，分别对应Normalize和De-Normalize算子，
数据的清理，有这样几种数据可能是需要清理的，一是离群点，通过Detect Outier进行检测；二是缺失数据，通过Replace Missing Values进行处理；三是近似于常数的变量，通过Remove Useless Attribute算子来处理；四是相关度很高的变量，用Remove Correlated Atributes算子处理。
数据抽样，通过sample算子实现。

4 数据绘图