数据科学中的R和Python: rapidminer数据挖掘入门之四：建模和评价（完）

星期四, 十月 27, 2011

rapidminer数据挖掘入门之四：建模和评价（完）

rapidminer中提供了大量的建模方法或学习器，可用于不同情况下的回归和分类问题。从常见的线性回归、决策树到神经网络和支持向量机。此外还提供了集成学习器，即将多个学习器组合使用以提高预测能力，例如Bagging和Boosting，以及Stacking。

这些学习器都可以看做是一个黑箱，输入数据，输出模型和预测结果。在使用这些学习器时要注意的一点就是：不同的学习器需输入的数据类型不同。以Decision Tree学习器为例，它可以输入numerical attributes（数值数据自变量）、binominal attributes（两分类数据自变量）、polynomial attributes（多分类数据自变量），以及polynominal label（多分类数据因变量） binominal label（两分类数据因变量），但它不能处理numerical label（数值数据因变量）。这些信息都可以在学习器上通过帮助信息了解。

在建模时，我们通常会将样本数据分为两个部分，一半做为训练样本，另一半做为检验样本，那么这如何来进行呢？首先还是将iris数据拖入，在后面加上split data算子，该算子将数据分为两个等份，一部分数据连接到decision tree用于建模，另一部分连接到apply model算子用于模型检验。还需要将decision tree算子的输出连接到apply model算子的输入，将apply model的lab输出连接到performance进行检验评价，最后将mod输出和per输出都连接到右边墙上即可。然后点击运行三角键就可以得到最终的结果输出。整个连接图应该如下图所示：

另一种常用的检验方法是cross-validation（交叉检验），以十重交叉检验为例，也就是将全部数据随机地分为等量的十份，选择其中的9份作为训练数据，剩下1份作为检测数据来评价模型。然后更换其中的1份数据，重复实验。这样得到10组不同的评价指标，最后综合评判模型的表现。在rapidminer中需要用X-Validation算子来实现这一功能。流程图如下所示，