美文网首页
NLP学习 2

NLP学习 2

作者: Cxgoal | 来源:发表于2020-07-22 12:59 被阅读0次

Task2 数据读取与数据分析[¶]

本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。

学习目标

  • 学习使用Pandas读取赛题数据
  • 分析赛题数据的分布规律

导入必要库

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif'] = ['SimHei']

这里设置plt的字体显示

读取数据

train_df = pd.read_csv('../Data/train_set.csv', sep='\t')

csv数据的读取,可以看一下数据的基本信息和情况


数据举例.png 数据信息.png

数据分析

在读取完成数据集后,我们还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析,但通过数据分析还是可以找出一些规律的。

此步骤我们读取了所有的训练集数据,在此我们通过数据分析希望得出以下结论:

  • 赛题数据中,新闻文本的长度是多少?
  • 赛题数据的类别分布是怎么样的,哪些类别比较多?
  • 赛题数据中,字符分布是怎么样的?

句子长度分析

在赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词的个数来得到每个句子的长度。统计并如下:


文本长度统计信息.png

文本长度分布信息(竖轴显示取log)


文本长度分布信息 .png

新闻类别分布

接下来可以对数据集的类别进行分布统计,具体统计每类新闻的样本个数


样本分布.png

字符分布统计

接下来可以统计每个字符出现的次数,首先可以将训练集中所有的句子进行拼接进而划分为字符,并统计每个字符的个数。

词频.png

高频词语,低频词语

本章作业

  1. 假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
  2. 统计每类新闻中出现次数对多的字符

Solution

  1. python 自带的split不能多条件分割,这里使用re模块完成。


    分句统计信息.png
  2. 这里我选取了前五频繁的字词。我们可以发现3750,648,900几乎在各类别中均是高频词语,几乎可以确定为标点。



    结果.png

相关文章

  • NLP学习 2

    Task2 数据读取与数据分析[¶] 本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并...

  • 吾爱NLP(3)—我对NLP的理解与学习建议

    0、目录结构 1、我理解的NLP 2、如何开始学习NLP 3、自然语言处理技术的发展历程 4、文本分类小实例:垃圾...

  • NLP学习HW1

    NLP入门组队学习 题目理解 报名了NLP组队学习,这是第一天的学习。 赛题名称: 零基础入门NLP之新闻文本分类...

  • 更大的挑战——作业2.2

    更大的挑战——作业2.2 来到了课程的第2天,今天徐导主要讲了“世界观的形成”、NLP的假设前提、学习NLP的意义...

  • 2021/12/12日记

    今天学习nlp幸福心理学的第2课,我觉得每个老师他的授课风格都不一样,暑假在上海学习的nlp更多的是从实战实操的方...

  • 童磊20200910成长日记【人生无处不心锚】

    生命是用来学习快乐的,今天教师节,我复训中美NLP学院·广州·34期NLP专业执行师国际文凭班二阶day2。 今天...

  • 关于word2vec

    好吧,我终于要开始nlp的学习了 http://mccormickml.com/2016/04/19/word2v...

  • 第一篇: 词向量之Word2vector原理浅析

    一、概述 本文主要是从deep learning for nlp课程的讲义中学习、总结google word2ve...

  • 【NTTK基础知识】第1章 自然语言处理简介

    1.1 为什么要学习NLP NLP:Natural Language Processing,自然语言处理 (201...

  • 学习NLP

    8月11~12日两天的周末,跟着豆豆老师学习NLP课程,收获非常大,感恩豆豆老师,感恩所有的助教老师及伙伴们,让我...

网友评论

      本文标题:NLP学习 2

      本文链接:https://www.haomeiwen.com/subject/pkvzkktx.html