数据科学中的R和Python: 聚类分析在R语言中的实现

星期日, 七月 31, 2011

聚类分析在R语言中的实现

聚类分析和判别分析有相似的作用，都是起到分类的作用。但是，判别分析是已知分类然后总结出判别规则，是一种有指导的学习；而聚类分析则是有了一批样本，不知道它们的分类，甚至连分成几类也不知道，希望用某种方法把观测进行合理的分类，使得同一类的观测比较接近，不同类的观测相差较多，这是无指导的学习。所以，聚类分析依赖于对观测间的接近程度（距离）或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

1，K聚类
newiris <- iris
newiris$Species <- NULL
kc <- kmeans(newiris, 3)
plot(newiris[c("Sepal.Length", "Sepal.Width")], col = kc$cluster)
points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col = 1:3, pch = 8, cex=2)