星期日, 一月 27, 2013

如何学习数据科学


本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学(书籍、博客、小项目),课程学习,教学讨论,会议交流和工作实践。

一、入门

1)自学(2 - 4个月)

自学是起步的关键。两年前,我和几个同事组成了一个研究小组,讨论统计202课程的学习材料。这让我感觉很兴奋,并由此开始数据分析的学习研究。研究小组有5名成员,但最后只有2个人选择去更深入地研究这个领域(数据科学并不适合每一个人)。

  • 学习基本的统计知识:统计202课程是非常合适的入门资料
  • 学习一种统计工具:作为一个菜鸟,我用了3个月的时间埋头学习R语言,R学起来非常有趣。(为什么要学习R?
  • 解决一些好玩的小问题:好奇心是数据科学的关键。如果你对国家的经济问题,犯罪统计,体育成绩等感兴趣的话,去收集数据并开始回答你的问题吧。
  • 学习Unix工具:我选择了O'Reilly出版的数据之魅作为学习材料。
  • 学习SQL和脚本语言:我了解的有Java,Ruby和SQL。 Python也在我的名单上。


有很多的培训材料可以在网上找到:


2)课堂训练(9 - 12个月)

如果你想认真提高这项技能,那就选择一门课程,严肃的对待它。斯坦福大学提供了很优秀的课程。


二、聚焦

1)集中所有精力

  • 当我迷上了数据科学时,我发现只花20%的时间是不够的,这需要花100%的时间,所以我会去发现并解决工作中出现的所有和数据相关的问题(大数据分析,医疗保健,零售分析,优化问题)。

2)着手有趣的问题

  • 把学习目标和个人兴趣放在一起。解决有趣的问题,同时学习新的技术是很有用的。例如我对零售,医疗保健和体育数据分析很有兴趣。

3)加速学习:


4)了解业务领域知识
我很幸运,有机会接触到内部和外部的数据科学家,他们帮助我理解他们处理数据问题的方法。我从他们身上学到的“假设驱动的数据分析”,而不是“盲目加蛮力数据分析”的重要性。重点是理解的业务领域问题,然后再尝试从数据中提取有意义的见解。这使我了解一些运营,零售,旅游及物流收入管理和医疗行业。 “纽约时报”近日发表文章,强调有必要为直觉。

3、有用的数据科学读物


4、对我感觉没多大用的东西

  • 学习多个统计工具:一年前,我开始有一些SAS编程的工作要求,我学了一个月左右的SAS,但没什么效果。主要的原因是学习惯性,而且我喜欢用R.我真的没有需要去学习另一种统计工具。R虽然不是完美的,但将R和其他我熟悉的软件工具结合,我可以解决所有数据的科学问题。因此,我的建议是,如果你已经知道了SAS,STATA,MATLAB,SPSS,STATISTICA,非常好,坚持下去。但是,如果你正在学习一种新的统计工具,那就选择R吧。
  • 公开课程:我试图用Coursera来自定进度学习,但对我来说,这不是有效的。我需要有压力,有学分的正式课程。
  • 过多的学习量:需要注意工作与生活的平衡。今年早些时候,我试图同时学习多门困难的课程,我很快就意识到这么干没什么好处。

22 条评论:

  1. 感谢博主分享!有个问题,那个链接,比如202,不是课本一类的吗?

    回复删除
    回复
    1. 不是课本,是网络课程一类的

      删除
    2. 您好 ,那些stanford 的课程怎么看啊,比如挖掘海量数据集CS246,没有账号没法看视频啊

      删除
    3. 可以申请Stanford 的公共ID

      删除
    4. 请问一下怎样申请 Stanford ID,我试着申请了一个但是需要教工的 endorsement

      删除
  2. 此评论已被作者删除。

    回复删除
  3. 此评论已被作者删除。

    回复删除
  4. 几周前我在rblogger上读过这篇文章,当时笑了出来.这个世界上还真是有和我一样学习过程的人啊. 有80%重叠的经验. 就不落俗套的来一句强烈推荐了.因为想学的人自然会去学,自然而然或早或晚的接触到这些知识,走过这样的路.至于没有重叠到的部分,是认识了Trevor Hastie,Edward Tufte, Jure Leskovec( 正太,20多岁) ,Hadley Wickham这些优秀的学者,并有机会去上他们的课. 他们的书,网站,代码是很美的东西.

    回复删除
  5. 那个coursera好像也是每周定期上课的啊,最后也给个证书什么的。有人上过这个吗?感觉如何?

    回复删除
  6. lz的这个分享很赞!20%的内容已经看过,10%的内容正在学习,感觉自己努力的方向对了

    回复删除
  7. 此评论已被作者删除。

    回复删除
  8. 感谢博主分享,相当宝贵的一个List。
    coursera上可以新增一个台大的机器学习基石。

    回复删除