笔记-注意事项

作者: 时光如水_fe87 | 来源:发表于2022-03-11 14:03 被阅读0次

1.Idf注意事项

是全局统计特征1.数据量要大；2.分布式存在问题（不同的机器上，同样的词，idf都不同），数据量大差距会小，每天都要更新；3. 我买了一只哈士奇，奇怪的奇，这个词会出现idf特别大，idf的前提就是粉刺要准，分类器要一致。

倒排索引：数据库中一般是以文档 id作为索引，文档内容为记录。而倒排索引是以单词或者文档作为索引，文档id做为记录。这样方便地通过单词或者记录找到文档。

1.计算tf-idf

tf -- 词在句子中出现的权重 = 词在句子中出现的次数/词总数

idf * tf = 一个词在句子中的权重

一个词信息量高，同时在句子中出现的次数多，就权重大！

在长篇文章中，tf可以作为词的权重，但是在问答系统中，都是短句子，每个词出现一次，是不是tf就失效了呢？

2.计算word2vec

每个词都是一个向量，如果一个词比较重要，那么它和其他词的距离比较接近。

训练word2vec不仅可以用问答预料，还可以用领域内其他预料

3.计算倒排索引

倒排索引技术可以快速从百万级的语料库中检索候选和得分，并根据分数进行截断，取topk输入给下一环节。

idf存在什么问题？有没有改进空间？

作业：自己实现idf的替代方案！

提取关键词无论是tf还是word2vec本质上都是一个词袋模型

做一个分类模型：lstm。

只有理解原来才能活学活用

网友评论

本文标题：笔记-注意事项

本文链接：https://www.haomeiwen.com/subject/snoyrrtx.html

笔记-注意事项