星期三, 六月 29, 2011

R语言中的多维标度分析

多维标度(Multidimensional scaling,缩写MDS,又译“多维尺度”)也称作“相似度结构分析”(Similarity structure analysis),属于多重变量分析的方法之一,是社会学、数量心理学、市场营销等统计实证分析的常用方法。

下面的算例以一个多维数据为样本,其中指标变量有17个,样本个数为27个。

星期二, 六月 28, 2011

在R语言中使用自助法和置换检验比较两总体

通常可以使用T检验来比较两个总体均值是否相同,但其前提是总体分布为正态,或者是大样本。在小样本情况下可以使用自助法来判断统计量及其置信区间。

下面的算例来自于《A Handbook of Statistical Analyses Using R》,数据中两组样本分别来自两组学生对某个物体尺寸的估计,一组使用公制,另一组使用英制,问题是这两组的估计值是否有明显差别。

1 自助法
自助法对单一的样本以有放回方式进行再抽样,得到自助分布,根据自助分布来推断样本统计量特征。

星期四, 六月 09, 2011

分类-回归树模型(CART)在R语言中的实现

CART模型,即Classification And Regression Trees。它和一般回归分析类似,是用来对变量进行解释和预测的工具,也是数据挖掘中的一种常用算法。如果因变量是连续数据,相对应的分析称为回归树,如果因变量是分类数据,则相应的分析称为分类树。

决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。其算法的优点在于:1)可以生成可以理解的规则。2)计算量相对来说不是很大。3)可以处理多种数据类型。4)决策树可以清晰的显示哪些变量较重要。

下面以一个例子来讲解如何在R语言中建立树模型。为了预测身体的肥胖程度,可以从身体的其它指标得到线索,例如:腰围、臀围、肘宽、膝宽、年龄。