星期二, 十一月 08, 2011

R语言新书:R并行计算

近年来R语言已经成为流行的开源数据分析软件,但其局限性在于单处理器核心作业和内存限制。想要成为跨平台的优秀软件,则必须经过商用海量数据的考验。而并行计算是一种当前热门的解决途径。

O'Reilly最新出版了《Parallel R, Data analysis in the distributed world》,此书虽然只有122页,但包含了R语言中Snow、Multicore、Parallel、Hadoop、RHIPE、Segure几大扩展包的使用,分别讲解各自优势与缺点。在这些扩展包的帮助下,R语言可以拓展到多核心和多机运行,解决海量数据的运算问题。



  • Snow: 适合在传统的云环境下工作
  • Multicore: 在多核心多处理器的计算机上很流行
  • Parallel: 在R语言的最新版2.14中包括进来
  • R+Hadoop: 提供了低门槛的集群运算模式
  • RHIPE: 利用Hadoop的力量与R协同工作和交互
  • Segue: 可以使用Elastic MapReduce作为R的后台
这个页面里包括了更多关于R语言高性能并行计算的扩展包说明

1 条评论: