美文网首页
NLP学习HW1

NLP学习HW1

作者: Cxgoal | 来源:发表于2020-07-21 16:42 被阅读0次

    NLP入门组队学习 题目理解

    报名了NLP组队学习,这是第一天的学习。

    赛题名称:

    零基础入门NLP之新闻文本分类

    赛题目标:

    入门自然语言处理,熟悉相关机器学习和深度学习的方法和算法。

    赛题任务:

    对来自互联网的新闻文本进行分类,也是一个典型字符识别的问题。

    学习目标

    理解赛题背景与赛题数据
    下载赛题数据,理解赛题的思路

    赛题数据

    赛题的数据报名后即可下载,数据为新闻文本,并且进行了字符级别的匿名处理。数据文本中包含14个类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、市政、体育、星座、游戏、娱乐。
    赛题数据构成:训练集20w条样本,测试集A包含5w条样本,测试集B包括5w条样本。字符匿名处理是为了预防人工标注测试集。

    数据标签

    标签与类别对应关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘市政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

    评测指标

    评价标准为类别f1_score的均值,将提交结果和实际类别进行对比,结果当然越大越好.多分类的F1_score 使用marco计算方式

    当精确率和召回率都高,f1值就会很高。
    使用sklearn的库函数可以完成f1值的计算

    读取数据

    使用Pandas库读取数据,方便后续进行

    解题思路

    赛题思路分析:赛题文本分类问题,根据每句的字符进行分类。这个题目已经帮助我们分好词了,由于数据匿名化的,不能直接使用中文分词,因此我们直接对匿名字符进行建模,涉及到特征提取和分类模型两个部分。
    可能会用到的解题思路:

    思路1:TF-IDF + 机器学习分类器
    使用TF-IDF对文本提取特征,并使用分类器分类,分类器可以选择SVM、LR、或者XGboost

    思路2:FastText
    FastText是入门级的词向量,使用Facebook提供的FastText工具,快速构建分类器

    思路3:WordVec + 深度学习分类器
    WordVec是进阶级的词向量,深度学习分类网络有TextCNN、TextRNN以及BiLSTM。

    思路4:Bert词向量
    Bert是高配级词向量,建模学习能力更加强大

    相关文章

      网友评论

          本文标题:NLP学习HW1

          本文链接:https://www.haomeiwen.com/subject/pitwkktx.html