美文网首页
中文分词初体验

中文分词初体验

作者: IceySu | 来源:发表于2017-06-08 22:57 被阅读0次

       这篇小文章主要是记录一下中文分词的一次小样本实验,实验数据来源于京东商城生鲜区火龙果的评价文本,抽取评价数据中的30条作为小样本进行实验,这30条数据包括正面评价和负面评价,既有关于商品质量的评价,又有关于价格和物流的评价。部分数据截图如下所示:

京东商城火龙果部分评价数据

       整个实验过程中输入和输出的数据都是以txt文本格式保存的,去除评价文本中重复的数据,然后利用开源工具ROSTCM6进行中文分词处理,结果如下所示:

分词结果

       实验中的分词结果是以制表符而不是“/”来分割的。分词之后,去除停顿词 ,进行词频统计,在实验中,我们并没有显示出所有词的频数,而是按词频进行降序排列,显示出排名在前300的词及其频数,词频统计结果的部分截图和其可视化标签如下所示:

词频统计结果
词频统计可视化标签

       在可视化的标签中,字体的大小与其频数成正比,也就是词语的频数越大,则在可视化标签中词语显示的字体就越大,从上面结果我们可以看出:“京东”、“水果”、“新鲜”、“快递”这4个词语的频数相对较高,京东和水果是两个命名实体,新鲜和快递可以看出,买家对于商品的质量和物流服务在购物过程中是很关心的两个要素。

       最后是对于评价文本进行情感分析,即判断评价的情感倾向。这里主要是计算情感得分来判断情感倾向,当情感得分大于0时,我们认定这条评价是正面评价;得分小于0时,为负面评价;得分等于0时,为中性评价。

情感分布统计结果

       在这30条的样本数据中,积极情绪占主要部分,中性和消极情绪所占比例相对较小,而且消极情绪中-20分以下的情况是没有发生的,这说明了客户对于京东商城苹果的评价还是不错的,客户满意度还是相对较高的。但是,这个情感的评价并不是十分的准确,我们举其中的一个例子来说明一下。

例:42      一共 买 了 9 个 其他 都 还 好 就是 有 一个 也 太 小 了 吧 看 着 根本 就 不 熟 感觉 都 没有 多少 果肉 要是 没有 这一 个 的 影响 就 很 完美

         3     货 收到 物流 快 满意

         9    全 五星 是 给 快递 哥 的 因为 五月 八 号 下午 六 至 八点 广州 特大 暴雨 还是 特快 送 到 了 非常 感谢 紫色 肉 很 甜

       上面的这3条数据是从正面情感结果中抽取的其中3条数据,前面的数值42、3和9是该条评论的情感得分,通过这3条数据我们可以很容易的看到第一条评论的客户并不是很满意,但是受到个别词语(如完美)的影响,其情感得分值较高,而后面两条评论的客户相对而言要比第一条评论满意,但是其情感得分却要远远小于第一条评价的情感得分。由此我们可以发现,单单只凭借情感词忽视整条评论的语义所得到的情感分析结果有待商榷,后面可以针对这样的情况,做出改进。


相关文章

  • 中文分词初体验

    这篇小文章主要是记录一下中文分词的一次小样本实验,实验数据来源于京东商城生鲜区火龙果的评价文本,抽取评价数据中的...

  • “结巴”中文分词:做最好的 Python中文分词组件

    “结巴”中文分词:做最好的 Python中文分词组件 1 jieba中文分词简介: 中文分词是中文NLP的第一步,...

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • 配置Hanlp自然语言处理进阶

    中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持jav...

  • 分词系统评测

    1.11款开放中文分词引擎大比拼 2.常用的开源中文分词工具 3.11大Java开源中文分词器的使用方法和分词效果...

  • python笔记 | 舆情分析如何做?

    中文分词原理及分词工具介绍 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切...

  • 中文分词工具及中文语料资源

    关键词: 中文分词;分词;自然语言处理;中文语料 最近要做中文自然语言处理相关任务,牵涉到使用中文分词工具和相关算...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • 基于Trie 树实现简单的中文分词

    中文分词简介 中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需...

网友评论

      本文标题:中文分词初体验

      本文链接:https://www.haomeiwen.com/subject/luotqxtx.html