星期二, 一月 10, 2012

数据挖掘项目失败的原因

商业智能(BI)领域内,预测分析和数据挖掘(PADM)一直缓慢而稳步的成长。机器学习(Machine Learning)技术是支持PADM的重要驱动力量。在过去二十年间出现的桌面计算能力和软件自动化水平,使得PADM在各大中型企业的商业智能运用中起到了重要的作用。虽然存在阻力影响着PADM的广泛运用,但PADM的势头将继续增长。这是因为大多数组织正在稳步进行商业智能的开发,这包括了从数据采集,存储,结构,探索,可视化等方面。

为什么大多数PADM项目会失败
在商业世界中,更为看重的是对业务的提升而非精妙的技术。可惜的是,大部分的专业人士把重点放在构建精确模型的技术上。这样构建出来的模型没有回答正确的商业问题。建模结果无法得到很好的解释,也无法适用于运营环境。这样的结果不能合理的实现,也不能被高层所理解和赞赏。这也难怪,有相当数量的项目没有完成,也就无法得到正的投资回报率。


数据挖掘中的行业标准
BI专业人士中的绝大多数都没有意识到,PADM领域中存在着重要的行业标准流程。最流行的标准有两个,一个是SAS公司提出的SEMMA标准(即抽样、探索、修正、建模、评估),另一个是CRISP-DM数据挖掘跨行业标准流程)。 CRISP-DM标准更为中立而且被业界更为广泛地采用。CRISP-DM将数据挖掘划分为六个步骤,即商业理解、数据理解、数据准备、建模、评估、部署。

实施数据挖掘的建议

  • 开始培训:无论你的职位是什么,要领会商业智能的精髓,培训是必不可少的。即使要将工作外包,理解PADM的风险、回报、能力范围和局限性,将有助于和外部咨询团队有效互动和交流。
  • 进行数据挖掘项目评估:虽然大多数组织自己都有能力来实施并维护一个PADM项目。但仍然建议聘请一个经验丰富的数据挖掘专家来帮助项目设计和评估。
  • 内部人员的能力建设:企业的相关从业人员应该能从项目中获得经验和培训,最终能够独立建立、运行并维护PADM项目。当然在资深专家的指导和监督下效果会更好。

如果你在一个大中型企业中任职,但还没有进行PADM项目,那么企业中存在的大量数据就没有为企业利润提供助力。还要注意的是,PADM不是一次性的项目,而是一个持续的过程。因此,将此项工作长期外包是非常低效的。外包不仅价格昂贵得多,而且不利于培养企业内部相关人才。

注:本文编译自globalknowledgeblog.com

参考资料:
数据挖掘跨行业标准流程中文版

没有评论:

发表评论