平方再开根号再依次除以开根号的值, 然后点乘另外一组数据,查看两个的相似度
![](https://img.haomeiwen.com/i1327433/46ccdd2bbc41e594.png)
TF-IDF
TF:词频 出现的次数
IDF: log#文档/ 1+ 包含单词的文档
例: 64 全部
3 西博思色子
log 64 /1+3= log16 = 4
最近领域搜索
文件:
语料库:
1、语料库里面搜索我要匹配的新文件
2、计算S=similarity(文件,新文件)
3、if s>best_s新文件就是我们要的文件
else重复step 1、2
搜索匹配高的,(向量后其实相似的就在附近)
K最邻近
13,【12,11,10】#皇后只有一个 ,后宫3千
聚类 无监督学习 群聚标签
K 均值 (越小越好)
集群标签 ,刚开始 是随机的, 求集群标签就是求K均值的过程 (向量后其实相似的就在附近)
1、把观测值分配给最近的中心点(随机值);
2、把群集中心改成其他的观测值;
3、重复第一步到第二步知道收敛;
![](https://img.haomeiwen.com/i1327433/b8a3a60df26c4ad4.png)
![](https://img.haomeiwen.com/i1327433/b5ba0e4b8534dd0f.png)
情感分析、图片搜索、分析病情
网友评论