本文是零基础入门NLP - 新闻文本分类的第一篇作业,定位是对赛题的精简和解题思路开拓。
读题
任务
新闻文本分类。
数据解析
-
赛题数据为新闻文本,并按照字符级别进行匿名处理。
-
数据类别为14种:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
-
数据量:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。
模型评价
评价标准为类别的均值,可以用sklearn.metrics.f1_score
计算。
难点
本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。
解题思路
数据挖掘
特征工程
1.字符出现次数
2.N个或者若干个字符出现
密码学
1.使用密码学知识,把匿名字符解码出中文,然后在中文基础上进行文本分类。
2.根据数据类型推测出数据来源,然后去数据网站来源进行数据爬取。
参考:
有余力的话朝这个方向去试试,算是乐趣,主要学习目的还是掌握机器学习模型的应用。
模型应用
四个思路的参考资料和梳理。
-
TF-IDF + 机器学习分类器
-
FastText
-
WordVec + 深度学习分类器
-
Bert词向量
最终目的
学会如何处理文本分类的问题,熟悉常用的机器学习方法。
TIPS
数据下载🔗链接
训练集:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip
测试集:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip
结果提交:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv
网友评论