所有人物的相似图连接。
关系同上。展示形式为多中心结构
以张无忌的不同身份为中心的网络关系图。
一、分析结果
实体的不同属性(张无忌的总多马甲)
张无忌,无忌,张教主,无忌哥哥,张公子。同一个张无忌有多个身份,不同身份又和不同的人联系,有不一样的相似度。
先来看看图:
无忌哥哥是过于亲密的名字,一般不喊。好似和这个词相似度高的都是比较奇怪的角色。
无忌是关系熟了以后,平辈或者长辈可以称呼的名字。还有周姑娘,殷姑娘等
数据预处理
文本文件转发成utf8(pandas)
文本文件分句,分词(Jieba)
文本文件分句,分词, 分析词性,主要是人名(Jieba)
更新自定义词典,重新分词(整个过程需要几遍,直至满意)
手工少量删除(分词出来的人名误判率不高,但是还是存在一些。例如:赵敏笑道,可以被识别的 一个叫 赵敏笑的人。 这部分工作还需要手工做。 除非有更好的分词工具,或者可以训练的分词工具,才能解决这一问题。
Word2Vec 训练模型。这个模型可以计算两个人之间的相似度
Word2Vec 向量化训练
建立实体关系矩阵
欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/
欢迎大家加入万人交流学习,资源共享群:125240963
网友评论