美文网首页
NLP入门 - 新闻文本分类 Task1

NLP入门 - 新闻文本分类 Task1

作者: 正在学习的Yuki | 来源:发表于2020-07-21 22:16 被阅读0次

Task1 赛题理解

天池大赛:零基础入门NLP - 新闻文本分类

1.1 数据
  • 新闻文本,并按字符级别进行匿名处理
  • 14个候选分类类别(label:0 - 13)
  • 训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本
  • Pandas读取数据代码:
import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t')
image.png
1.2 评测标准

类别f1_score的均值,越大越好


image.png

可以用sklearn计算:

from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')
1.3 难点

对匿名字符进行建模,从而完成文本分类(特征提取+分类模型)

1.4 思路
  1. TF-IDF + 机器学习分类器(e.g., SVM, LR, XGBoost)
  2. FastText
  3. WordVec + 深度学习分类器(e.g., TextCNN, TextRNN, BiLSTM)
  4. Bert

Reference:
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aTpCKxe&postId=118252

相关文章

  • NLP入门 - 新闻文本分类 Task1

    Task1 赛题理解 天池大赛:零基础入门NLP - 新闻文本分类 1.1 数据 新闻文本,并按字符级别进行匿名处...

  • NLP学习HW1

    NLP入门组队学习 题目理解 报名了NLP组队学习,这是第一天的学习。 赛题名称: 零基础入门NLP之新闻文本分类...

  • 零基础入门NLP - 新闻文本分类(赛题理解)

    本文是零基础入门NLP - 新闻文本分类的第一篇作业,定位是对赛题的精简和解题思路开拓。 读题 任务 新闻文本分类...

  • NLP之新闻文本分类-Task1

    Task1 赛题理解 本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。 赛题理解 赛题名称...

  • nlp学习笔记-task1

    Task1 赛题理解 目的: 对新闻内容进行分类, 共有14个文本标签, 分别是财经、彩票、房产、股票、家居、教育...

  • 【笔记】NLP分类方法

    摘录于下文,对NLP分类方法大概了解,内示例代码 入门 | CNN也能用于NLP任务,一文简述文本分类任务的7个模...

  • 天池学习赛-NLP新闻文本分类(1/6)-赛题理解

    NLP新闻文本分类 赛题地址赛提数据 1、赛题背景 赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个...

  • NLP入门 - 新闻文本分类 Task2

    Task2 数据分析 通过数据分析希望得出以下结论: 新闻文本的长度是多少? 数据的类别分布是怎么样的,哪些类别比...

  • NLP入门 - 新闻文本分类 Task3

    Task3 基于机器学习的文本分类 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文...

  • NLP入门 - 新闻文本分类 Task4

    Task4 基于深度学习的文本分类1 - fastText 学习目标 学习FastText的使用和基础原理 学会使...

网友评论

      本文标题:NLP入门 - 新闻文本分类 Task1

      本文链接:https://www.haomeiwen.com/subject/gqtwkktx.html