美文网首页
NLP文本分类学习系列(一)

NLP文本分类学习系列(一)

作者: 柠樂helen | 来源:发表于2020-07-21 21:41 被阅读0次

天池比赛的赛题理解

赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。

数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

解题思路:

思路1:TF-IDF + 机器学习分类器

一个简单的方式就是TF IDF,样本构建流程:

特征的维度是词典集合大小(为了减少特征维度爆炸,可以去除停用词和低频词)

1.先计算出 词*分类的tf*idf矩阵,

TF是 词频,表示这个文章中该词出现的频率,IDF是逆文本频率指数。包含该词的文档比例,越小越代表该词有指向性,越大表示越普适性。

2.每个文本的词都转化成tfidf值,按词粒度聚合,然后按照词典顺序依次填充,从而得到一条样本

然后就可以接一个简单的多分类模型,预测文本分类。

相关文章

  • 8.machine_learning_Bayes_Classif

    1 机器学习贝叶斯分类器 参考阅读材料: NLP系列(2)_用朴素贝叶斯进行文本分类(上)[https://blo...

  • NLP文本分类学习系列(一)

    天池比赛的赛题理解 赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产...

  • NLP学习HW1

    NLP入门组队学习 题目理解 报名了NLP组队学习,这是第一天的学习。 赛题名称: 零基础入门NLP之新闻文本分类...

  • NLP系列学习:CNN文本分类

    这一篇文章主要是记录下自己阅读《Convolutional Neural Networks for Sentenc...

  • NLP文本分类学习系列(二)

    Task2 数据读取与数据分析 读取数据第一列为新闻的类别,第二列为新闻的字符。读取数据 数据洞察赛题数据中,新闻...

  • FastText 分析与实践

    一. 前言 自然语言处理(NLP)是机器学习,人工智能中的一个重要领域。文本表达是 NLP中的基础技术,文本分类则...

  • NLP之文本分类

    前言 作为NLP领域最经典的使用场景之一,文本分类积累了许多的实现方法。这里我们根据是否使用深度学习方法将文本分类...

  • 自然语言处理NLP知名的公司和开放API

    NLP公司 Google NLP google nlp支持实体识别、情感分析、文本分类等功能,支持英语、日文、中文...

  • 献给学习NLP的同学们[持续更新ing]

    NLP资源汇总 NLP四大任务类型:分类、序列标注、文本匹配、文本生成练习地址:https://github.co...

  • 吾爱NLP(3)—我对NLP的理解与学习建议

    0、目录结构 1、我理解的NLP 2、如何开始学习NLP 3、自然语言处理技术的发展历程 4、文本分类小实例:垃圾...

网友评论

      本文标题:NLP文本分类学习系列(一)

      本文链接:https://www.haomeiwen.com/subject/qanwkktx.html