美文网首页码农的世界python热爱者我爱编程
Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧

作者: Python树苗 | 来源:发表于2018-05-17 20:22 被阅读74次

    所有人物的相似图连接。

    关系同上。展示形式为多中心结构

    以张无忌的不同身份为中心的网络关系图。

    一、分析结果

    实体的不同属性(张无忌的总多马甲)

    张无忌,无忌,张教主,无忌哥哥,张公子。同一个张无忌有多个身份,不同身份又和不同的人联系,有不一样的相似度。

    先来看看图:

    无忌哥哥是过于亲密的名字,一般不喊。好似和这个词相似度高的都是比较奇怪的角色。

    无忌是关系熟了以后,平辈或者长辈可以称呼的名字。还有周姑娘,殷姑娘等

    数据预处理

    文本文件转发成utf8(pandas)

    文本文件分句,分词(Jieba)

    文本文件分句,分词, 分析词性,主要是人名(Jieba)

    更新自定义词典,重新分词(整个过程需要几遍,直至满意)

    手工少量删除(分词出来的人名误判率不高,但是还是存在一些。例如:赵敏笑道,可以被识别的 一个叫 赵敏笑的人。 这部分工作还需要手工做。 除非有更好的分词工具,或者可以训练的分词工具,才能解决这一问题。

    Word2Vec 训练模型。这个模型可以计算两个人之间的相似度

    Word2Vec 向量化训练

    建立实体关系矩阵

    欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/

     欢迎大家加入万人交流学习,资源共享群:125240963

    相关文章

      网友评论

        本文标题:Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧

        本文链接:https://www.haomeiwen.com/subject/sguidftx.html