星期五, 五月 22, 2015

使用word2vec进行文本分类

用代码来理解boosting方法

提升方法是集成学习中预测能力最强的一种方法。在R和Python中都有相应的扩展库和丰富的函数。不过对于初学者来讲,理解这种方法不是很容易。本文基于R的决策树包实现两种基本的提升树,即回归提升树和分类提升树。有助于理解提升方法的原理,以及各项参数的作用。

星期六, 四月 18, 2015

用非负矩阵分解对文本词项矩阵降维

在前年的一个贴子中,谈到了使用奇异值分解来对一个文本词项矩阵进行降维。本文是使用同样的数据,但是使用不同的工具来处理,也就是非负矩阵分解。nmf的好处在于比svd更容易解释,而且自带正则功能。

星期五, 四月 17, 2015