数据科学中的R和Python: 交叉检验

星期五, 七月 06, 2012

谈一谈支持向量机分类器

支持向量机（Support Vector Machine）名字听起来很炫，功能也很炫，但公式理解起来常有眩晕感。所以本文尝试不用一个公式来说明SVM的原理，以保证不吓跑一个读者。理解SVM有四个关键名词：分离超平面、最大边缘超平面、软边缘、核函数。

分离超平面（separating hyperplane）：处理分类问题的时候需要一个决策边界，好象楚河汉界一样，在界这边我们判别A，在界那边我们判别B。这种决策边界将两类事物相分离，而线性的决策边界就是分离超平面。
最大边缘超平面（Maximal Margin Hyperplane）：分离超平面可以有很多个，怎么找最好的那个呢，SVM的作法是找一个“最中间”的。换句话说，就是这个平面要尽量和两边保持距离，以留足余量，减小泛化误差，保证稳健性。或者用中国人的话讲叫做“执中”。以江河为国界的时候，就是以航道中心线为界，这个就是最大边缘超平面的体现。在数学上找到这个最大边缘超平面的方法是一个二次规划问题。
软边缘（Soft Margin)：但世界上没这么美的事，很多情况下都是“你中有我，我中有你”的混杂状态。不大可能用一个平面完美的分离两个类别。在线性不可分情况下就要考虑软边缘了。软边缘可以破例允许个别样本跑到其它类别的地盘上去。但要使用参数来权衡两端，一个是要保持最大边缘的分离，另一个要使这种破例不能太离谱。这种参数就是对错误分类的惩罚程度C。
核函数(Kernel Function)，为了解决完美分离的问题，SVM还提出一种思路，就是将原始数据映射到高维空间中去，直觉上可以感觉高维空间中的数据变的稀疏，有利于“分清敌我”。那么映射的方法就是使用“核函数”。如果这种“核技术”选择得当，高维空间中的数据就变得容易线性分离了。而且可以证明，总是存在一种核函数能将数据集映射成可分离的高维数据。看到这里各位不要过于兴奋，映射到高维空间中并非是有百利而无一害的。维数过高的害处就是会出现过度拟合。

所以选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲，核函数越复杂，模型越偏向于拟合过度。在参数C方面，它可以看作是LASSO算法中的lambda的倒数，C越大模型越偏向于拟合过度，反之则拟合不足。实际问题中怎么选呢？用人类最古老的办法，试错。

阅读全文 »

星期日, 五月 06, 2012

有这么一句很有趣的话，如果一个东西走路象鸭子、叫起来象鸭子、吃起来也象鸭子，那它就是一只鸭子。这是一种很符合我们直觉的思维方式：将未知的对象和已知的东西相比较，如果各个属性相近，我们就把它们归为一个类别。这就是KNN分类器的思想。

KNN即是kth Nearest Neighbor。如果我们已经拥有一些已知类别的数据，要对一些未知类别的数据进行分类。基本思路就是将数据看作是在多元空间中的点，先计算未知点和周围k个已知点之间的距离。然后根据周围k个已知点的类别进行投票来决定未知点的类别。例如设k为3，对某个未知点找出其周围最近的三个已知点，如果这三个点有两个属于A类，一个属于B类，那么根据多数原则，将未知点的类别预测为A类。

KNN算法的优势在于算法简单，稳健性强，可以构成非线性的判别边界，模型参数简单，只有距离测度和k参数。其弱点在于计算量较大，对异常点较为敏感，对不平衡数据也很敏感。R语言中class包的knn函数可以实行基本的KNN算法。

阅读全文 »

数据科学中的R和Python

页面

星期五, 七月 06, 2012

谈一谈支持向量机分类器

星期日, 五月 06, 2012

为KNN分类器增加Cross-Validation功能