美文网首页
笔记-注意事项

笔记-注意事项

作者: 时光如水_fe87 | 来源:发表于2022-03-11 14:03 被阅读0次

    1.Idf注意事项

        是全局统计特征1.数据量要大;2.分布式存在问题(不同的机器上,同样的词,idf都不同),数据量大差距会小,每天都要更新;3. 我买了一只哈士 奇, 奇怪的奇,这个词会出现idf特别大,idf的前提就是粉刺要准,分类器要一致。

    倒排索引:数据库中一般是以文档 id作为索引,文档内容为记录。而倒排索引是以单词或者文档作为索引,文档id做为记录。这样方便地通过单词或者记录找到文档。

    1.计算tf-idf

            tf -- 词在句子中出现的权重 = 词在句子中出现的次数/词总数

             idf * tf = 一个词在句子中的权重 

           一个词 信息量高,同时在句子中出现的次数多,就权重大!

    在长篇文章中,tf可以作为词的权重,但是在问答系统中,都是短句子,每个词出现一次,是不是tf就失效了呢?

    2.计算word2vec

            每个词都是一个向量,如果一个词比较重要,那么它和其他词的距离比较接近。

    训练word2vec不仅可以用问答预料,还可以用领域内其他预料

    3.计算倒排索引

            倒排索引技术可以快速从百万级的语料库中检索候选和得分,并根据分数进行截断,取topk输入给下一环节。

    idf存在什么问题?有没有改进空间?

    作业:自己实现idf的替代方案!

    提取关键词 无论是tf还是word2vec本质上都是一个词袋模型

    做一个分类模型:lstm。

    只有理解原来才能活学活用

    相关文章

      网友评论

          本文标题:笔记-注意事项

          本文链接:https://www.haomeiwen.com/subject/snoyrrtx.html