零基础入门NLP - 新闻文本分类（赛题理解）

作者: callingpulse | 来源:发表于2020-07-21 23:20 被阅读0次

NLP入门 - 新闻文本分类 Task1
零基础入门NLP赛事 - Task1 赛题理解
NLP学习HW1
零基础入门NLP - 新闻文本分类（赛题理解）
天池学习赛-NLP新闻文本分类（1/6）-赛题理解
cv街景门牌字符的赛题理解
NLP之新闻文本分类-Task1
NLP文本分类学习系列（一）
nlp学习笔记-task1
零基础入门NLP - 新闻文本分类方案整理

本文是零基础入门NLP - 新闻文本分类的第一篇作业，定位是对赛题的精简和解题思路开拓。

赛题理解.png

读题

任务

新闻文本分类。

数据解析

赛题数据为新闻文本，并按照字符级别进行匿名处理。
数据类别为14种：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
数据量：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。

模型评价

评价标准为类别的均值，可以用sklearn.metrics.f1_score 计算。

难点

本次赛题的难点是需要对匿名字符进行建模，进而完成文本分类的过程。

解题思路

数据挖掘

特征工程

1.字符出现次数

2.N个或者若干个字符出现

密码学

1.使用密码学知识，把匿名字符解码出中文，然后在中文基础上进行文本分类。

2.根据数据类型推测出数据来源，然后去数据网站来源进行数据爬取。

参考：

有余力的话朝这个方向去试试，算是乐趣，主要学习目的还是掌握机器学习模型的应用。

模型应用

四个思路的参考资料和梳理。

TF-IDF + 机器学习分类器
FastText
WordVec + 深度学习分类器
Bert词向量

最终目的

学会如何处理文本分类的问题，熟悉常用的机器学习方法。

TIPS

数据下载🔗链接

训练集：https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

测试集：https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip

结果提交：https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv

参考

Datawhale零基础入门NLP赛事 - Task1 赛题理解

比赛官方地址

网友评论

本文标题：零基础入门NLP - 新闻文本分类（赛题理解）

本文链接：https://www.haomeiwen.com/subject/jhbgkktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

零基础入门NLP - 新闻文本分类（赛题理解）

读题

任务

数据解析

模型评价

难点

解题思路

数据挖掘

特征工程

密码学

模型应用

最终目的

TIPS

数据下载🔗链接

参考

相关文章

NLP入门 - 新闻文本分类 Task1

零基础入门NLP赛事 - Task1 赛题理解

NLP学习HW1

零基础入门NLP - 新闻文本分类（赛题理解）

天池学习赛-NLP新闻文本分类（1/6）-赛题理解

cv街景门牌字符的赛题理解

NLP之新闻文本分类-Task1

NLP文本分类学习系列（一）

nlp学习笔记-task1

零基础入门NLP - 新闻文本分类方案整理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读