美文网首页
一、文本分析与可视化

一、文本分析与可视化

作者: 许志辉Albert | 来源:发表于2021-07-26 15:02 被阅读0次

1.1 文本的分析与展示

在任何建模之前,一般我们会对数据进行一定的分析,文本也不例外,不过文本不像其他业务的数据,是数值型,这时候很多统计的方式,是大家理解数据的初步,而文本可视化,经常会用到词云的形式,词云是有说服力的一种可视化方式,尤其是对于文本中心内容展示。

1.2 工具库的引入

import warings
warings.filterwarning("ignore")
import jieba
import pandas as pd
import numpy as np
import codecs # codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
import matplotlib.pyplot as plt
%matplotlib inline
matplotlib.rcParam['figure.figsize'] = (10.0,5.0)
from wordcloud import WordCloud

1.3 数据读取

df = pd.read_csv('./origin_data/enterainment_news.csv',encoding = 'utf-8')
df = df.dropna()
content = df['content'].values.tolist()
segment = []
for line in content:
  try:
    segs = jieba.lcut(content)
    for seg in segs:
      if len(seg) >1 and seg != '\r\n':
        segment.append(seg)

  except:
    print(line)
    continue

1.3.1 数据处理——去停用词

words_df = pd.DataFrame({'segment':segment})
words_df.head()
stopwords = pd.read_csv('origin_data/stopwords.txt',index_col = False , quoting = 3 , sep = '\t',names = ['stopword'],encoding = 'utf-8')
stopwords.head()
words_df = words_df[~words_df.segment.isin(stopwords.stopword)]

1.3.2 词频统计

words_stat = words_df.groupby(by = ['segment'])['segment'].agg({'计数':numpy.size})
words_stat = words_ stat.reset_index().sort_values (by = ['计数'],ascending = False)
words_stat.head()

1.3.3 做词云

matplotlib.rcParams['figure_figsize'] = (12,12)
wordcloud = WordCloud(font_path = 'origin_data/simhei.ttf',background_color = 'white' , max_font_size = 80)
word_frequence = {x[0]:x[1] for x in words_stat.head(100).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

相关文章

  • 一、文本分析与可视化

    1.1 文本的分析与展示 在任何建模之前,一般我们会对数据进行一定的分析,文本也不例外,不过文本不像其他业务的数据...

  • 文本挖掘一般流程

    流程 根据研究,得出文本挖掘一般流程包括文本数据采集、文本数据预处理、文本数据分析和文本数据可视化这四个步骤。 (...

  • 用Python实现《沉默的真相》3万+弹幕情感分析!简单!

    以前我写过不少文本数据分析,比如《八佰》影评分析、《三十而已》热评分析等,但基本停留在可视化分析层面。本文将运用文...

  • 天池学习赛-NLP新闻文本分类(2/6)-数据分析

    1 赛题理解 2 数据分析 文本的字符长度分析-- 每条新闻的字符数的描述性统计分析-- 每条新闻的字符数的可视化...

  • 数据分析选题

    1 樊登读书会文本 高频词汇探测 2 kaggle数据分析可视化 3 10个crm分析 4 初步入门vba 5 精...

  • 2019-06-04

    “python数据采集分析、文本挖掘暨可视化技术培训班”的通知 在大数据时代,数据科学作为统计分析、数据挖掘、机器...

  • 2018-03-07

    Python文本数据与图像数据分析的常见技术文本分析:清洗与常见算法a) 正则表达式b) 分词与关键字提取图像分析...

  • 中文NLP笔记:4. 文本数据可视化 的几个方法

    文本数据可视化有下面三种 1. 基于文本内容的可视化 基于词频的可视化和基于词汇分布的可视化 常用的有词云、分...

  • Part2文本处理技术:文本数据处理、表示、语言模型

    六. 文本处理 一. 文本分析流程与分词 1. 文本分词流程 就像其他的领域有自己的经典流程一样,一个文本分析的项...

  • 自行车租赁数据分析与可视化

    本文采编自寒小阳老师上课讲义 案例:自行车租赁数据分析与可视化 {#案例:自行车租赁数据分析与可视化} 导入数据,...

网友评论

      本文标题:一、文本分析与可视化

      本文链接:https://www.haomeiwen.com/subject/dwqgmltx.html