美文网首页
NLP学习HW1

NLP学习HW1

作者: Cxgoal | 来源:发表于2020-07-21 16:42 被阅读0次

NLP入门组队学习 题目理解

报名了NLP组队学习,这是第一天的学习。

赛题名称:

零基础入门NLP之新闻文本分类

赛题目标:

入门自然语言处理,熟悉相关机器学习和深度学习的方法和算法。

赛题任务:

对来自互联网的新闻文本进行分类,也是一个典型字符识别的问题。

学习目标

理解赛题背景与赛题数据
下载赛题数据,理解赛题的思路

赛题数据

赛题的数据报名后即可下载,数据为新闻文本,并且进行了字符级别的匿名处理。数据文本中包含14个类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、市政、体育、星座、游戏、娱乐。
赛题数据构成:训练集20w条样本,测试集A包含5w条样本,测试集B包括5w条样本。字符匿名处理是为了预防人工标注测试集。

数据标签

标签与类别对应关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘市政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

评测指标

评价标准为类别f1_score的均值,将提交结果和实际类别进行对比,结果当然越大越好.多分类的F1_score 使用marco计算方式

当精确率和召回率都高,f1值就会很高。
使用sklearn的库函数可以完成f1值的计算

读取数据

使用Pandas库读取数据,方便后续进行

解题思路

赛题思路分析:赛题文本分类问题,根据每句的字符进行分类。这个题目已经帮助我们分好词了,由于数据匿名化的,不能直接使用中文分词,因此我们直接对匿名字符进行建模,涉及到特征提取和分类模型两个部分。
可能会用到的解题思路:

思路1:TF-IDF + 机器学习分类器
使用TF-IDF对文本提取特征,并使用分类器分类,分类器可以选择SVM、LR、或者XGboost

思路2:FastText
FastText是入门级的词向量,使用Facebook提供的FastText工具,快速构建分类器

思路3:WordVec + 深度学习分类器
WordVec是进阶级的词向量,深度学习分类网络有TextCNN、TextRNN以及BiLSTM。

思路4:Bert词向量
Bert是高配级词向量,建模学习能力更加强大

相关文章

  • NLP学习HW1

    NLP入门组队学习 题目理解 报名了NLP组队学习,这是第一天的学习。 赛题名称: 零基础入门NLP之新闻文本分类...

  • IELTS HW

    SPEAKING (Before Thursday) HW1: Describe a website send m...

  • 凯撒密码破译

    凯撒密码破译 from my csdn blog 信息安全原理 hw1 Caesar: AWPLDPPYNCJA...

  • 【NTTK基础知识】第1章 自然语言处理简介

    1.1 为什么要学习NLP NLP:Natural Language Processing,自然语言处理 (201...

  • 学习NLP

    8月11~12日两天的周末,跟着豆豆老师学习NLP课程,收获非常大,感恩豆豆老师,感恩所有的助教老师及伙伴们,让我...

  • 学习NLP

    文:杨长懿 从今天开始我们聊聊NLP吧,来个NLP入门由浅入深的分享,如此以来便可以让一直关注我的朋友们学习到一门...

  • HW1

    # HomeWork 1 #### 赵天啸 基科63 2016012258 ------ 1. - 对有限维实...

  • HW1

  • HW1

    1. CMU 与美国国防部合作提出 CMM/CMMI 模型,解决了美国国防部估软件供应商能力的要求;CMM/CMM...

  • 深研学习感悟

    从接触NLP到学习NLP再到传播NLP有三年的时间了,越来越感受到NLP的神奇,尤其此次的武夷山深研之行。 ...

网友评论

      本文标题:NLP学习HW1

      本文链接:https://www.haomeiwen.com/subject/pitwkktx.html