美文网首页码农的世界python热爱者我爱编程
Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧

作者: Python树苗 | 来源:发表于2018-05-17 20:22 被阅读74次

所有人物的相似图连接。

关系同上。展示形式为多中心结构

以张无忌的不同身份为中心的网络关系图。

一、分析结果

实体的不同属性(张无忌的总多马甲)

张无忌,无忌,张教主,无忌哥哥,张公子。同一个张无忌有多个身份,不同身份又和不同的人联系,有不一样的相似度。

先来看看图:

无忌哥哥是过于亲密的名字,一般不喊。好似和这个词相似度高的都是比较奇怪的角色。

无忌是关系熟了以后,平辈或者长辈可以称呼的名字。还有周姑娘,殷姑娘等

数据预处理

文本文件转发成utf8(pandas)

文本文件分句,分词(Jieba)

文本文件分句,分词, 分析词性,主要是人名(Jieba)

更新自定义词典,重新分词(整个过程需要几遍,直至满意)

手工少量删除(分词出来的人名误判率不高,但是还是存在一些。例如:赵敏笑道,可以被识别的 一个叫 赵敏笑的人。 这部分工作还需要手工做。 除非有更好的分词工具,或者可以训练的分词工具,才能解决这一问题。

Word2Vec 训练模型。这个模型可以计算两个人之间的相似度

Word2Vec 向量化训练

建立实体关系矩阵

欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/

 欢迎大家加入万人交流学习,资源共享群:125240963

相关文章

网友评论

    本文标题:Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧

    本文链接:https://www.haomeiwen.com/subject/sguidftx.html