美文网首页
数据归一化、TF-IDF、最近领域搜索、K最邻近、群聚标签(K

数据归一化、TF-IDF、最近领域搜索、K最邻近、群聚标签(K

作者: NextStepPeng | 来源:发表于2017-11-20 17:44 被阅读0次

平方再开根号再依次除以开根号的值, 然后点乘另外一组数据,查看两个的相似度

数据归一化

TF-IDF

TF:词频 出现的次数

IDF: log#文档/ 1+ 包含单词的文档

例: 64 全部

3 西博思色子

log 64 /1+3= log16 = 4

最近领域搜索

文件:

语料库:

1、语料库里面搜索我要匹配的新文件

2、计算S=similarity(文件,新文件)

3、if s>best_s新文件就是我们要的文件

   else重复step 1、2

搜索匹配高的,(向量后其实相似的就在附近)

K最邻近

 13,【12,11,10】#皇后只有一个 ,后宫3千


聚类  无监督学习  群聚标签

K 均值  (越小越好)

集群标签 ,刚开始 是随机的, 求集群标签就是求K均值的过程 (向量后其实相似的就在附近)

1、把观测值分配给最近的中心点(随机值);

2、把群集中心改成其他的观测值;

3、重复第一步到第二步知道收敛;


求K 均值 过程,蓝色线最短


集群标签

   情感分析、图片搜索、分析病情

相关文章

  • 数据归一化、TF-IDF、最近领域搜索、K最邻近、群聚标签(K

    平方再开根号再依次除以开根号的值, 然后点乘另外一组数据,查看两个的相似度 TF-IDF TF:词频 出现的次数 ...

  • 邻近算法KNN

    邻近算法 邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘[https:/...

  • KNN

    KNN(K- Nearest Neighbor)法即K最邻近法,所谓K最近邻,就是K个最近的邻居的意思,说的是每个...

  • K近邻算法

    K近邻算法 标签: 统计学习 目录 [TOC] 算法 对于新样本,找到最邻近的k个样本,然后根据该k个样本决定新样...

  • KNN分类

    邻近算法(kNN,k-NearestNeighbor),是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k...

  • 1-K近邻

    算法简介 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘[https:/...

  • 【python+机器学习1】python 实现 KNN

    欢迎关注哈希大数据微信公众号【哈希大数据】 1 KNN算法基本介绍K-Nearest Neighbor(k最邻近分...

  • 2019-03-30派森学习第131天

    上午看了一下k邻近算法(k-Nearest Neighbor,KNN)。 该算法主要思想是通过计算周围k个最邻近的...

  • KNN算法介绍

    一、算法介绍 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最...

  • 机器学习十大算法之kNN

      邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法...

网友评论

      本文标题:数据归一化、TF-IDF、最近领域搜索、K最邻近、群聚标签(K

      本文链接:https://www.haomeiwen.com/subject/bawvvxtx.html