星期日, 十一月 13, 2011

数据挖掘之你问我答(5/5)

注:本文是由Tim Graettinger的文章编译而来
问题五:最新的算法一定能得到更好的结果吗?

并非如此。

在读研究生的时候,我学到了各种预测建模的算法,并将大部分进行了编程实践。毕业后我去了一家专注于神经网络的软件公司,我想这是最厉害的建模技术了!

工作期间我咨询了许多使用我们公司软件进行应用的客户。在通常情况下,客户的内部员工已经开发过相关的应用,其建模技术并不比神经网络更为复杂。而我发现,相对之前的模型,神经网络技术顶多只能提供微弱的改进。


怎样才能使模型性能大幅改善?这需要依靠更优秀的数据(输入的是垃圾,输出的也是垃圾)
  • 改进数据表达方式(使用各种数据转换方法,包括对数、比率运算)
  • 增加更多非冗余的样本数据
总而言之,根据我的经验,获得良好的数据胜过最时髦炫目的建模技术。

补充资料:
著名的数据挖掘门户网站KDnuggets在最近的一次调查中发现,最常用的挖掘算法还是决策树、回归和聚类分析。下表就是根据调查得出2011年最常用的十大方法。

AlgorithmUsage
决策树 (186) 59.8 %
回归 (180) 57.9 %
聚类 (163) 52.4 %
描述统计 (149) 47.9 %
可视化 (119) 38.3 %
时间序列分析 (92) 29.6 %
支持向量机 (89) 28.6 %
关联分析 (89) 28.6 %
集成方法 (88) 28.3 %
文本挖掘 (86) 27.7 %

没有评论:

发表评论