数据科学中的R和Python: 聚类分析

显示标签为“聚类分析”的博文。显示所有博文

星期四, 八月 30, 2012

EM算法的R实现和高斯混合模型

EM（Expectatioin-Maximalization）算法即期望最大算法，被誉为是数据挖掘的十大算法之一。它是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测到的隐变量。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），也就是将隐藏变量象能够观测到的一样包含在内，从而计算最大似然的期望值；另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算，这个过程不断交替进行。对于信息缺失的数据来说，EM算法是一种极有效的工具，我们先用一个简单例子来理解EM算法，并将其应用到GMM（高斯混合模型）中去。

幼儿园里老师给a，b，c，d四个小朋友发糖吃，但老师有点偏心，不同小朋友得到糖的概率不同，p(a)=0.5, p(b)=miu, p(c)=2*miu, p(d)=0.5-3*miu 如果确定了参数miu，概率分布就知道了。我们可以通过观察样本数据来推测参数。设四人实际得到糖果数目为(a,b,c,d)，可以用ML（极大似然），估计出miu=(b+c)/6*(b+c+d)，假如某一天四个小朋友分别得到了(40,18,0,23)个糖。根据公式可求出miu为0.1。在信息完整条件下，ML方法是很容易估计参数的。

假设情况再复杂一点：知道c和d二人得到的糖果数，也知道a与b二人的糖果数之和为h，如何来估计出参数miu呢？前面我们知道了，如果观察到a，b，c，d就可以用ML估计出miu。反之，如果miu已知，根据概率期望 a/b=0.5/miu，又有a+b=h。由两个式子可得到 a=0.5*h/(0.5+miu)和b=miu*h/(0.5+miu)。此时我们面临一个两难的境地，a，b需要miu才能求出来，miu需要a，b才能求出来。有点类似岸上的八戒和河里的沙僧的对话：你先上来，你先下来，你先上来......

那么一种思路就是一方先让一步，暂且先抛出一个随机的初值，然后用对方算出的数值反复迭代计算。直到计算结果收敛为止。这就是EM算法的思路，我们来看看用R来实现这种思路：

阅读全文 »

星期日, 六月 10, 2012

基于密度的聚类分析

聚类分析是一种无监督学习方法，目的是捕获数据的自然结构，从而将数据划分为有意义的组。聚类分析还可以用来对大数据进行预处理，为进一步的数据挖掘工作起到压缩和降维的作用。在前面的文章中我们已经谈到了K均值聚类和凝聚层次聚类。K均值聚类使用非常广泛，作为最为古老的聚类方法，它的算法非常简单，而且速度很快。但是其缺点在于它不能识别非球形的簇。我们可以用一个简单的例子来观察K均值聚类的弱点。

我们先构造一些人为数据，它是基于sin函数和cos函数构成的两组点。如果我们用传统的K均值聚类，结果如下图所示。其聚类结果是不理想的，因为它不能识别非球形的簇。

阅读全文 »

星期二, 二月 07, 2012

使用snow包实现双核心并行计算

在数据挖掘和机器学习领域有许多的算法需要强大的计算能力，如果对大数据进行运算操作，那么其工作量之大使单个CPU核心难以承受负荷。目前的个人计算机已经具备有多个核心，如果采用并行计算将任务分解到多个核心上运行就能大大减少计算时间。进一步还可以将多台计算机组合成计算集群(Cluster)则能使之具备组合金刚般的运算能力。

目前已经有多个R语言扩展包专注于高性能运算，弥补了R本身单核心作业的弱点。其中snow（Simple Network of Workstations）是R语言中最流行的并行编程包于2003年推出，本文将尝试用snow来运算K均值聚类。

阅读全文 »

星期一, 一月 02, 2012

R语言多元分析系列之五：聚类分析（完）

聚类分析（Cluster Analysis）是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它是在没有先验知识的情况下，对样本按各自的特性来进行合理的分类。

聚类分析被应用于很多方面，在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征；在生物上，聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识；在因特网应用上，聚类分析被用来在网上进行文档归类来修复信息。

阅读全文 »

星期六, 八月 27, 2011

利用R语言的tm包进行文本挖掘

tm包是R语言中为文本挖掘提供综合性处理的package，进行操作前载入tm包，vignette命令可以让你得到相关的文档说明

library(tm)
vignette("tm")

首先要读取文本，本次操作所用的文本是tm包自带的20个XML格式文本，存放在library\tm\texxts\crude文件夹中。用Corpus命令读取文本并生成语料库文件

阅读全文 »

星期四, 八月 25, 2011

利用轮廓系数判断K均值聚类的簇个数

K均值聚类（K-means clustering）计算简单，并且可以用于各种数据类型，但需要事先判断簇个数来作为输入参量，该参数的设置往往涉及到聚类效果。

轮廓系数可以用来解决这个问题，轮廓系数（silhouette coefficient）方法结合了凝聚度和分离度，可以以此来判断聚类的优良性，其值在-1到+1之间取值，值越大表示聚类效果越好。

依据这个原理，我们可以尝试用多个簇参量，反复计算在每个簇个数条件下的轮廓系数，当轮廓系数取最大时，其相应的簇个数是最好的。

阅读全文 »

星期日, 七月 31, 2011

聚类分析在R语言中的实现

聚类分析和判别分析有相似的作用，都是起到分类的作用。但是，判别分析是已知分类然后总结出判别规则，是一种有指导的学习；而聚类分析则是有了一批样本，不知道它们的分类，甚至连分成几类也不知道，希望用某种方法把观测进行合理的分类，使得同一类的观测比较接近，不同类的观测相差较多，这是无指导的学习。所以，聚类分析依赖于对观测间的接近程度（距离）或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

阅读全文 »