美文网首页
NLP文本分类学习系列(二)

NLP文本分类学习系列(二)

作者: 柠樂helen | 来源:发表于2020-07-22 21:00 被阅读0次

Task2 数据读取与数据分析

  • 读取数据
    第一列为新闻的类别,第二列为新闻的字符。


    读取数据
  • 数据洞察

    • 赛题数据中,新闻文本的长度是多少?
    • 赛题数据的类别分布是怎么样的,哪些类别比较多?
    • 赛题数据中,字符分布是怎么样的?
文本长度分布
文本长度分布2

答1:文本长度平均为872个字符,最小的有64个,最长的有7125个,大部分在1000以下。

文本类别分布

在数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}
答2:由此可见,“体育”、“股票” 占比最高,“科技”、“娱乐”次之,类别分布不是很均衡。

字符词频分布

答3:最多的字符,平均30次/篇,高频的字符很可能是标点或停用词,需要过滤。

引用官方说明
通过上述分析我们可以得出以下结论:
1.赛题中每个新闻包含的字符个数平均为1000个,还有一些新闻字符较长;
2.赛题中新闻类别分布不均匀,科技类新闻样本量接近4w,星座类新闻样本量不到1k;
3.赛题总共包括7000-8000个字符;
通过数据分析,我们还可以得出以下结论:
1.每个新闻平均字符个数较多,可能需要截断;
2.由于类别不均衡,会严重影响模型的精度;

本章作业

  1. 假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
  2. 统计每类新闻中出现次数对多的字符
统计句子个数
句子个数分布

相关文章

  • 8.machine_learning_Bayes_Classif

    1 机器学习贝叶斯分类器 参考阅读材料: NLP系列(2)_用朴素贝叶斯进行文本分类(上)[https://blo...

  • NLP文本分类学习系列(二)

    Task2 数据读取与数据分析 读取数据第一列为新闻的类别,第二列为新闻的字符。读取数据 数据洞察赛题数据中,新闻...

  • NLP学习HW1

    NLP入门组队学习 题目理解 报名了NLP组队学习,这是第一天的学习。 赛题名称: 零基础入门NLP之新闻文本分类...

  • NLP系列学习:CNN文本分类

    这一篇文章主要是记录下自己阅读《Convolutional Neural Networks for Sentenc...

  • NLP文本分类学习系列(一)

    天池比赛的赛题理解 赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产...

  • FastText 分析与实践

    一. 前言 自然语言处理(NLP)是机器学习,人工智能中的一个重要领域。文本表达是 NLP中的基础技术,文本分类则...

  • 自然语言处理NLP知名的公司和开放API

    NLP公司 Google NLP google nlp支持实体识别、情感分析、文本分类等功能,支持英语、日文、中文...

  • 献给学习NLP的同学们[持续更新ing]

    NLP资源汇总 NLP四大任务类型:分类、序列标注、文本匹配、文本生成练习地址:https://github.co...

  • NLP之文本分类

    前言 作为NLP领域最经典的使用场景之一,文本分类积累了许多的实现方法。这里我们根据是否使用深度学习方法将文本分类...

  • 吾爱NLP(3)—我对NLP的理解与学习建议

    0、目录结构 1、我理解的NLP 2、如何开始学习NLP 3、自然语言处理技术的发展历程 4、文本分类小实例:垃圾...

网友评论

      本文标题:NLP文本分类学习系列(二)

      本文链接:https://www.haomeiwen.com/subject/nbatlktx.html