NLP学习HW1

作者: Cxgoal | 来源:发表于2020-07-21 16:42 被阅读0次

NLP学习HW1
IELTS HW
凯撒密码破译
【NTTK基础知识】第1章自然语言处理简介
学习NLP
学习NLP
HW1
HW1
HW1
深研学习感悟

NLP入门组队学习题目理解

报名了NLP组队学习，这是第一天的学习。

赛题名称：

零基础入门NLP之新闻文本分类

赛题目标：

入门自然语言处理，熟悉相关机器学习和深度学习的方法和算法。

赛题任务：

对来自互联网的新闻文本进行分类，也是一个典型字符识别的问题。

学习目标

理解赛题背景与赛题数据
下载赛题数据，理解赛题的思路

赛题数据

赛题的数据报名后即可下载，数据为新闻文本，并且进行了字符级别的匿名处理。数据文本中包含14个类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、市政、体育、星座、游戏、娱乐。
赛题数据构成：训练集20w条样本，测试集A包含5w条样本，测试集B包括5w条样本。字符匿名处理是为了预防人工标注测试集。

数据标签

标签与类别对应关系如下：{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘市政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

评测指标

评价标准为类别f1_score的均值，将提交结果和实际类别进行对比，结果当然越大越好.多分类的F1_score 使用marco计算方式

当精确率和召回率都高，f1值就会很高。
使用sklearn的库函数可以完成f1值的计算

读取数据

使用Pandas库读取数据，方便后续进行

解题思路

赛题思路分析：赛题文本分类问题，根据每句的字符进行分类。这个题目已经帮助我们分好词了，由于数据匿名化的，不能直接使用中文分词，因此我们直接对匿名字符进行建模，涉及到特征提取和分类模型两个部分。
可能会用到的解题思路：

思路1：TF-IDF + 机器学习分类器
使用TF-IDF对文本提取特征，并使用分类器分类，分类器可以选择SVM、LR、或者XGboost

思路2：FastText
FastText是入门级的词向量，使用Facebook提供的FastText工具，快速构建分类器

思路3：WordVec + 深度学习分类器
WordVec是进阶级的词向量，深度学习分类网络有TextCNN、TextRNN以及BiLSTM。

思路4：Bert词向量
Bert是高配级词向量，建模学习能力更加强大

网友评论

本文标题：NLP学习HW1

本文链接：https://www.haomeiwen.com/subject/pitwkktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

NLP学习HW1

赛题名称：

赛题目标：

赛题任务：

学习目标

赛题数据

数据标签

评测指标

读取数据

解题思路

相关文章

NLP学习HW1

IELTS HW

凯撒密码破译

【NTTK基础知识】第1章自然语言处理简介

学习NLP

学习NLP

HW1

HW1

HW1

深研学习感悟

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读