星期四, 十月 27, 2011

rapidminer数据挖掘入门之四:建模和评价(完)

rapidminer中提供了大量的建模方法或学习器,可用于不同情况下的回归和分类问题。从常见的线性回归、决策树到神经网络和支持向量机。此外还提供了集成学习器,即将多个学习器组合使用以提高预测能力,例如Bagging和Boosting,以及Stacking。

这些学习器都可以看做是一个黑箱,输入数据,输出模型和预测结果。在使用这些学习器时要注意的一点就是:不同的学习器需输入的数据类型不同。以Decision Tree学习器为例,它可以输入numerical attributes(数值数据自变量)、binominal attributes(两分类数据自变量)、polynomial attributes(多分类数据自变量),以及polynominal label(多分类数据因变量) binominal label(两分类数据因变量),但它不能处理numerical label(数值数据因变量)。这些信息都可以在学习器上通过帮助信息了解。


在建模时,我们通常会将样本数据分为两个部分,一半做为训练样本,另一半做为检验样本,那么这如何来进行呢?首先还是将iris数据拖入,在后面加上split data算子,该算子将数据分为两个等份,一部分数据连接到decision tree用于建模,另一部分连接到apply model算子用于模型检验。还需要将decision tree算子的输出连接到apply model算子的输入,将apply model的lab输出连接到performance进行检验评价,最后将mod输出和per输出都连接到右边墙上即可。然后点击运行三角键就可以得到最终的结果输出。整个连接图应该如下图所示:

另一种常用的检验方法是cross-validation(交叉检验),以十重交叉检验为例,也就是将全部数据随机地分为等量的十份,选择其中的9份作为训练数据,剩下1份作为检测数据来评价模型。然后更换其中的1份数据,重复实验。这样得到10组不同的评价指标,最后综合评判模型的表现。在rapidminer中需要用X-Validation算子来实现这一功能。流程图如下所示,
需要注意validation是一个嵌套算子,双击进入后需要设置学习器等子模块。





没有评论:

发表评论