美文网首页
零基础入门NLP - 新闻文本分类(赛题理解)

零基础入门NLP - 新闻文本分类(赛题理解)

作者: callingpulse | 来源:发表于2020-07-21 23:20 被阅读0次

本文是零基础入门NLP - 新闻文本分类的第一篇作业,定位是对赛题的精简和解题思路开拓。

赛题理解.png

读题

任务

新闻文本分类

数据解析

  • 赛题数据为新闻文本,并按照字符级别进行匿名处理。

  • 数据类别为14种:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。

  • 数据量:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

模型评价

评价标准为类别​的均值,可以用sklearn.metrics.f1_score 计算。

难点

本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。

解题思路

数据挖掘

特征工程

1.字符出现次数

2.N个或者若干个字符出现

密码学

1.使用密码学知识,把匿名字符解码出中文,然后在中文基础上进行文本分类。

2.根据数据类型推测出数据来源,然后去数据网站来源进行数据爬取。

参考:

有余力的话朝这个方向去试试,算是乐趣,主要学习目的还是掌握机器学习模型的应用。

模型应用

四个思路的参考资料和梳理。

  • TF-IDF + 机器学习分类器

  • FastText

  • WordVec + 深度学习分类器

  • Bert词向量

最终目的

学会如何处理文本分类的问题,熟悉常用的机器学习方法。

TIPS

数据下载🔗链接

训练集:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

测试集:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip

结果提交:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv

参考

Datawhale零基础入门NLP赛事 - Task1 赛题理解

比赛官方地址

相关文章

网友评论

      本文标题:零基础入门NLP - 新闻文本分类(赛题理解)

      本文链接:https://www.haomeiwen.com/subject/jhbgkktx.html