数据科学中的R和Python: 数据挖掘之你问我答(5/5)

星期日, 十一月 13, 2011

数据挖掘之你问我答(5/5)

注：本文是由Tim Graettinger的文章编译而来
问题五：最新的算法一定能得到更好的结果吗？

并非如此。

在读研究生的时候，我学到了各种预测建模的算法，并将大部分进行了编程实践。毕业后我去了一家专注于神经网络的软件公司，我想这是最厉害的建模技术了！

工作期间我咨询了许多使用我们公司软件进行应用的客户。在通常情况下，客户的内部员工已经开发过相关的应用，其建模技术并不比神经网络更为复杂。而我发现，相对之前的模型，神经网络技术顶多只能提供微弱的改进。

怎样才能使模型性能大幅改善？这需要依靠更优秀的数据（输入的是垃圾，输出的也是垃圾）

改进数据表达方式（使用各种数据转换方法，包括对数、比率运算）
增加更多非冗余的样本数据

总而言之，根据我的经验，获得良好的数据胜过最时髦炫目的建模技术。

补充资料：
著名的数据挖掘门户网站KDnuggets在最近的一次调查中发现，最常用的挖掘算法还是决策树、回归和聚类分析。下表就是根据调查得出2011年最常用的十大方法。

Algorithm	Usage
决策树 (186)	59.8 %
回归 (180)	57.9 %
聚类 (163)	52.4 %
描述统计 (149)	47.9 %
可视化 (119)	38.3 %
时间序列分析 (92)	29.6 %
支持向量机 (89)	28.6 %
关联分析 (89)	28.6 %
集成方法 (88)	28.3 %
文本挖掘 (86)	27.7 %

数据科学中的R和Python

页面

星期日, 十一月 13, 2011

数据挖掘之你问我答(5/5)

没有评论:

发表评论