《数据挖掘》专题

专题列表页

近邻算法又称为被动学习算法。这种算法只是将训练集的数据保存起来，在收到测试数据时才会进行计算。贝叶斯算法则是一种...[作者空间]

KNN 算法 k 近邻算法（ kNN ）：考察新记录周围距离最近的 k 条记录，而不是只看一条。每个近邻都有投票...[作者空间]

训练集和测试集通常我们将数据集分为两个部分，第一部分用来构造分类器，因此称为训练集；另一部分用来评估分类器的结果...[作者空间]

特征值选取 1、选择特征值 2、对特征值相关度进行评分 3、将数据进行标准化（最常用的方法时将所有数据都转化为 0...[作者空间]

Slope One 算法是在一篇名为《Slope One：基于在线评分系统的协同过滤算法》的论文中提出的，由 Le...[作者空间]

基于用户的协同过滤基于用户的协同过滤又称为内存型协同过滤，需要将所有数据都保存在内存中进行计算；我们将一个用户和...[作者空间]

找出相似用户曼哈顿距离最简单的距离计算方式；在二维模型中，每个目标对象都可以用 (x, y) 的点来表示，我...[作者空间]

聚类通过物品特征来计算距离，并自动分类到不同的群集或组中。层次聚类算法对于层次聚类算法，我们不需要预先指定分...[作者空间]

非结构化文本的分类算法如身高、体重、对法案的投票等。具有能用表格来展现的共性的数据我们称为 “结构化数据” 。...[作者空间]