数据科学中的R和Python: RapidMiner数据挖掘入门之一：概要

星期六, 十月 01, 2011

RapidMiner数据挖掘入门之一：概要

1 简介
RapidMiner原名Yale，它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示，从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性，所以很适合于数据挖掘的初学者入门。

RapidMiner提供的数据挖掘和机器学习程序包括：数据加载和转换（ETL），数据预处理和可视化，建模，评估和部署。数据挖掘的流程是以XML文件加以描述，并通过一个图形用户界面显示出来。RapidMiner是由Java编程语言编写的，其中还集成了WEKA的学习器和评估方法，并可以与R语言进行协同工作。

2 学习资源
软件的帮助菜单中自带了26个tutorial，可以帮助用户进行基本入门。另外在sample有也有不错的案例数据和流程可供参考学习。从官方网站可以下载到一份简单的用户手册，另外还有相应的资源站提供了很好的视频教程。

3 基本概念
rapidminer中的功能均是通过连接各类算子（operataor）形成流程(process)来实现的，整个流程可以看做是工厂车间的生产线，输入原始数据，输入出模型结果。算子可以看做是执行某种具体功能的函数，不同算子有不同的输入输出特性。

大体上有这样几类算子：

流程控制类，是为了实现循环和条件功能。
数据输入和输出类，是为了实现数据交换。
数据转换类，包括各种数据抽取、清洗整理功能；
建模类，包括分类回归建模，关联分析、聚类分析、集成学习等功能。
评估类，包括多重交叉检验，自助法检验等功能

软件有两个主要的工作区，一个是流程设计工作区，本区左侧可以看到各类算子和库，中间的主流程设计区，下方是错误提示区，右侧是参数设置区。另一个是结果显示工作区。

将算子拖入主流程工作区后，它会以一个方箱形式呈现，不同的颜色暗示着不同的函数功能。箱体左侧是输入接口，对应着输入类型的缩写。右侧对应输出接口和相应缩写。左下角会有三种颜色的状态灯，红灯表示关于该算子的设置错误，黄灯表示设置正常但还未进行过执行操作，绿灯表示设置正常且已经进行过执行操作。

在建模时，变量（attributes）会分为两个大类，普通变量称为regular,而目标变量称为label。这在有监督学习时需要特别留意。从数据特征来分，又可分为数值变量numeric，分类变量nominal，其中又有两值分类变量binominal，多值分类变量polynominal。不同的算子对于输入数据的类型有着不同的要求，这点需要在算子帮助中仔细阅读。

4 建模一般流程