星期三, 八月 24, 2011

利用rapidminer进行文本挖掘

在数据挖掘软件中有五大开源软件,其中weka在国内的使用率较高,而rapidminer却较少看到。就连学习资料也少之又少,只在youtube上能看到一些教学视频。以下的内容就是照葫芦画瓢弄出来的。

文本挖掘(text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。

文本挖掘通常要将文本进行断字预处理,然后利用空间向量模型将文本转换为数值数据,让学习器进行学习。中文的文本挖掘天生就比较悲惨,因为中文不象英文那样天然断字。而且中文语料库很少有免费的,要自己去处理语料那真是工程量浩大。因此只有转而求其次,利用网上已有的英文免费文本库中的新闻稿件进行文本挖掘实验。算是做一个rapidminer的练习。

此次任务是对从两种新闻来源中抽取文本,分析其特征词汇,建立分类模型,然后根据模型来检测分类的效果。


首先打开rapidminer,新建一个流程。从左侧opertors里找出process Document拖入主窗口,在右侧参数栏text directories中写入文本储存路径和类别。双击进入子流程,再从opertors里找出断词算子(Tokenize)以及各过滤算子进行子流程连接。





进行下一步数据处理,去除缺失值并指定目标变量,最后关键是将validation算子拖入主窗口,以进行建模和评价过程。双击进行validation子流程,左边框是进行模型训练,这里选用K近邻方法,右边框是模型评价,拖入apply model和performance算子。

点击运行按钮,然后就可以看到结果。分类准确率为95.5%,还是相当不错的。

其它关于rapidminer的参考资料地址:
http://www.neuralmarkettrends.com/index.php/tutorials
https://dspace.ndlr.ie/jspui/handle/10633/2353

没有评论:

发表评论