星期二, 十月 25, 2011

rapidminer数据挖掘入门之三:特征选择

在一般数据分析条件下,样本集合就类似一个Excel表格,每个样本数据排为一行,而纵列则代表了样本不同的特征或属性。有时候样本数据的特征过多,甚至特征数超过样本数就形成所谓的“维灾难”。

维数过高对于大多数回归分类模型来说是难以忍受的,而且这么高维特征可能会大大干扰训练效果、降低分类性能,因此有必要采取措施进一步地降低特征空间的维数。降维过程包括两类方法:一种是特征选择又称为子集选择,即从最初的N个特征中选取n个特征,而这n个特征可以更简洁、更有效地表示样本的信息。另一种是数据变换,即把N个原始特征变换为n个新的特征,例如主成分分析、投影寻踪方法。

特征选择的一般思路是:构造一个评估函数,对特征子集中的每一个特征进行独立的评估,使每一个特征得到一个评估分,然后对所有特征按照其评估分大小进行排序,选取满足阀值的预定数目个特征形成特征子集。


从使用方法上,特征选择又分为过滤器(Filter)方法和嵌入(Wrapper)方法,Filter是独立于分类器训练的,而Wrapper是结合分类器的效果进行选择的。Filter处理速度快,而Wrapper比较准确,但丧失了数据的一般性。rapidminer就采用Wrapper方法。

我们首先在Repositories中选择sample->processes->04_Attributes->10_ForwardSelect。该例子中用的方法是以前向搜索为选择顺序,以回归均方误为评估指标进行特征选择。

点击运行,然后观察结果窗口,在ProcessLog标签下观察散点图,纵轴选performance,横轴选generation,可以观察到在选择3个变量时,均方误达到最低,从ExampleSet标签可以看到最终选择了a1,a2,a3,这三个变量。



没有评论:

发表评论