星期四, 十月 20, 2011

rapidminer数据挖掘入门之二:数据导入、预处理和绘图

1 基本概念
当安装软件时rapidminer会问你新建库文件在所在地,也就是Repositories,它相当于是用户的所有资料存放地。库中主要存放两种资料:一种是建模需要的数据(Data),另一种是建模用到的模型,或称为流程(Processes)。在安装完软件后,用户可以从Repositories下面看到sample文件,里面提供了用来练习用的数据和模型。

2 数据导入
数据导入有两种方式:
第一种是在Repositories菜单中点击import,可以读取CSV等五种格式数据,导入后以data形式存在库中,可随时拖拽到主流程图中调用,将会显示为Retrieve。

第二种是以算子(Operators)形式导入,从算子中的import类中可以选择十几种导入算子拖拽到主流程图中,然后在设置窗口确定资料来源。


3 数据预处理
数据预处理主要通过Data Transformation算子实现中,其中包括了这样几个大类:
  • 重定义,在数据导入时软件会让你定义哪些属于预测变量,哪些属于响应变量,如果在导入阶段没有定义,则可以在预处理阶段用(Set Role)算子进行再定义,否则会无法进行分类建模。
  • 数据类型转换,数据大致上可分为数值(numerical)、两类(Binomial)、多类(Polynomial)数据,有时候希望相互转换,这就要用到Type Conversion类的算子来处理。
  • 数据标准化,标准化数据和还原是经常用到的功能,分别对应Normalize和De-Normalize算子,
  • 数据的清理,有这样几种数据可能是需要清理的,一是离群点,通过Detect Outier进行检测;二是缺失数据,通过Replace Missing Values进行处理;三是近似于常数的变量,通过Remove Useless Attribute算子来处理;四是相关度很高的变量,用Remove Correlated Atributes算子处理。
  • 数据抽样,通过sample算子实现。
4 数据绘图

绘图是在result overview窗口中实现,我们以著名的鸢尾花数据为例。首先将库中sample下的iris拖入Main Process,然后将其进行标准化,再点击大三角符号进行运算。软件会自动转到结果窗口,在该窗口选择plot view就可以选择多种绘图方式,下图就是所绘制的三维散点图:


没有评论:

发表评论