美文网首页时间管理司马腾超级自控力学院
《人工智能基础》17/91天阅读

《人工智能基础》17/91天阅读

作者: 皮卡丘_83e1 | 来源:发表于2018-11-22 22:44 被阅读0次

    对于文本的理解与分析,不同于图像处理和音频处理。由于每天产生的文本数据量过于庞大,因此人工标注的代价过于高昂,需要使用无监督学习算法 。

    潜在语义分析就是针对文本数据多主题的特点而设计的。这种技术可以通过无监督的方式从文本中分析出多个潜在的主题,完成聚类算法不能完成的任务。

    词袋模型:

    是用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式。其基本思想是忽略难以建模的词句结构、保留体现主题的词语计数。

    中文分词:

    首先需要将句子中的词语分开。才能根据词语构建词袋。大多基于匹配与统计学的方法。

    停止词:

    不携带任何主题信息的高频词称为停止词。

    词频率、文档频率、逆文档率。

    词频率-逆文档率是对词频率的一种修正,作为文档的特征。

    主题模型:

    是描述语料库及其中潜在主题的一类数学模型。

    相关文章

      网友评论

        本文标题:《人工智能基础》17/91天阅读

        本文链接:https://www.haomeiwen.com/subject/yvorqqtx.html