问题五:最新的算法一定能得到更好的结果吗?
并非如此。
在读研究生的时候,我学到了各种预测建模的算法,并将大部分进行了编程实践。毕业后我去了一家专注于神经网络的软件公司,我想这是最厉害的建模技术了!
工作期间我咨询了许多使用我们公司软件进行应用的客户。在通常情况下,客户的内部员工已经开发过相关的应用,其建模技术并不比神经网络更为复杂。而我发现,相对之前的模型,神经网络技术顶多只能提供微弱的改进。
怎样才能使模型性能大幅改善?这需要依靠更优秀的数据(输入的是垃圾,输出的也是垃圾)
- 改进数据表达方式(使用各种数据转换方法,包括对数、比率运算)
- 增加更多非冗余的样本数据
补充资料:
著名的数据挖掘门户网站KDnuggets在最近的一次调查中发现,最常用的挖掘算法还是决策树、回归和聚类分析。下表就是根据调查得出2011年最常用的十大方法。
Algorithm | Usage |
---|---|
决策树 (186) | 59.8 % |
回归 (180) | 57.9 % |
聚类 (163) | 52.4 % |
描述统计 (149) | 47.9 % |
可视化 (119) | 38.3 % |
时间序列分析 (92) | 29.6 % |
支持向量机 (89) | 28.6 % |
关联分析 (89) | 28.6 % |
集成方法 (88) | 28.3 % |
文本挖掘 (86) | 27.7 % |
没有评论:
发表评论