利用SVD(Singular Value Decomposition),即奇异值分解,我们可以用更小的数据集来表示...[作者空间]
在体育比赛中,人们面对的原本是百万像素的数据,但是只有球的三维位置才最重要,这就成为降维(dimensionlit...[作者空间]
上一章介绍了发现频繁项集与关键规则的算法,本章将继续关注发现频繁项集这一任务。我们会深入探索该任务的解决方法,并应...[作者空间]
从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联学习。本章将主要介绍Apriori算法来解决问题。 Ap...[作者空间]
聚类是一种无监督学习,它将相似的对象归到同一个簇中。他有点像全自动分类。簇识别给出聚类结果的含义。假定一些数据,现...[作者空间]
本章介绍一个新的叫做CART(分类回归树)的树构建算法。该算法既可以用于分类还可以用于回归,因此非常值得学习。 树...[作者空间]
本章首先介绍线性回归,包括其名称的由来和实现。接下来本章将讨论回归在“欠拟合”的情况下的缩减技术。最后将融合所有技...[作者空间]
Part 1、理论基础 将不同分类器组合起来的方法叫“集成方法”(ensemble method)或者“元算法”(...[作者空间]
元算法是对其他算法进行组合的一种方式。本章首先讨论不同分类器的集成方法,然后主要关注boosting方法及其代表分...[作者空间]
支持向量机优点:泛化错误率低,计算开销不大,结果易于理解缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适...[作者空间]
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该条线路为最佳拟合直线),这条拟合过程就称做回归。基于Log...[作者空间]
前两章我们要求分类器作出艰难的抉择,不过分类器有时候会产生错误,这时会产生错误结果,这是可以要求分类器给出一个最优...[作者空间]
第二章介绍的k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据内在的含义,决策树的主要优势在于数据...[作者空间]
第一篇blog,因为刚想写的,第一个算法已经敲完了,从第二个算法开始慢慢细心敲喽[作者空间]