美文网首页
数据分析之使用python 文本数据分析 关键字

数据分析之使用python 文本数据分析 关键字

作者: Herrylo | 来源:发表于2019-06-06 11:39 被阅读0次

我就不沾啥大数据和人工智能的边了,只是默默的弄我的文本数据分析。我的初衷是对我自己的印象笔记的进行关键词提取分析,然后看看今年我自己的日记中出现最频繁词语。至于为啥选择python,只是因为python的数据分析的插件更多,更丰富,有更好的选择性。在这里就不进行这种万年话题的讨论了("那门编程语言好")。

依赖环境: python3; 工具: pip3

当然也是支持python2.7的,可以直接使用python编译,使用pip安装的。

文本数据源获取

我之前一直以为印象笔记导出的文本是txt或者word文档,当我实际导出时发现导出的是html格式文件。。。。,有点出乎意料,那么只能通过读取html文件,获取日记内容(我将我今年的印象合并在一个文件里面)。我选择使用BeautifulSoup获取html文件数据。

BeautifulSoup intsall:

$ pip3 install beautifulsoup4
from bs4 import BeautifulSoup

# 解析html文件, 若不是html文件可以不使用BeautifulSoup
soup = BeautifulSoup(
    open("./file/合并.html", encoding='utf-8').read(), "html.parser")
html_text = soup.get_text() # 获取文本

变量html_text即是我的文本数据了,获取到文本数据之后,下面进行的就是关键字提取了。

参考: BeautifulSoup 文档

关键字提取

对文本数据提取和拆分,我选择使用jiaba, 它是python开源库中比较好的中文提取组件,用过之后还不错,对于个人分析还是够用的。

BeautifulSoup intsall:

$ pip3 install jieba

而且jieba还可以自定义词库哦,看下图:

img

自定义词库时,一词站一行,每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒

import jieba
import jieba.analyse

# 自定义词库
jieba.load_userdict('./file/dict.txt')  # 自定义词库

# 分析关键字 基于 TF-IDF 算法
extract_tags = jieba.analyse.extract_tags(html_text, topK=20, withWeight=True)
# 输出结果
for item in extract_tags:
    print(item)

参考: jieba.analyse.extract_tags 方法文档jieba.load_userdict 自定义词典词性标签

好的,就是这么简单,嘻嘻嘻,下面是我的2018年日记关键词:

2018关键字

不多说了,有疑问可以评论或者私信哦!!

查看: github 源码, 欢迎提issues

相关文章

  • 2018-03-07

    Python文本数据与图像数据分析的常见技术文本分析:清洗与常见算法a) 正则表达式b) 分词与关键字提取图像分析...

  • 【python】AQI处理分析

    1.Python:数据分析实战之AQI分析(完整版) Python:数据分析实战之AQI分析(完整版)

  • 数据分析之使用python 文本数据分析 关键字

    我就不沾啥大数据和人工智能的边了,只是默默的弄我的文本数据分析。我的初衷是对我自己的印象笔记的进行关键词提取分析,...

  • 关联规则(二)

    参考:数据挖掘入门系列教程(五)之Apriori算法Python实现Python 极简关联分析(购物篮分析) 数据...

  • 2019-06-04

    “python数据采集分析、文本挖掘暨可视化技术培训班”的通知 在大数据时代,数据科学作为统计分析、数据挖掘、机器...

  • pandas简介

    pandas: Python数据分析库 pandas是一个专门用于数据分析的开源python库,是使用pytho...

  • 解密大数据专栏文章分类【转】

    数据分析入门数据分析入门常见问题汇总Python初学者们 - Anaconda入门使用指南Python学习利器——...

  • 解密大数据专栏文章分类

    数据分析入门 数据分析入门常见问题汇总 Python初学者们 - Anaconda入门使用指南 Python学习利...

  • Python电商数据清洗及分析

    一、数据来源 本文使用python来分析一份电商数据,源数据可在下方评论获取。 二、分析思路 三、分析过程 3.1...

  • 7个理由,给你推荐这款“秒杀Excel”的分析神器!

    谈到数据分析,自然离不开赖以使用的数据分析工具。 可用于数据分析的工具有很多,Python、R......还有各式...

网友评论

      本文标题:数据分析之使用python 文本数据分析 关键字

      本文链接:https://www.haomeiwen.com/subject/hpvyxctx.html