nlp_task1

作者: cornbig | 来源:发表于2021-02-21 17:07 被阅读0次

教程:https://tianchi.aliyun.com/forum/postDetail?postId=145917
datawhale baseline:https://github.com/finlay-liu/tianchi-multi-task-nlp/

1.训练数据

tnews_path = "../input/2020-tianchi-nlp/TNEWS_train1128.csv"
ocnli_path = "../input/2020-tianchi-nlp/OCNLI_train1128.csv"
ocemotion_path = "../input/2020-tianchi-nlp/OCEMOTION_train1128.csv"
TNEWS:来源于今日头条的新闻版块,共包含15个类别的新闻;
OCEMOTION:是包含7个分类的细粒度情感性分析数据集;
OCNLI:是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集;

OCNLI:

包含5万余训练数据,3千验证数据及3千测试数据。除测试数据外,我们将提供数据及标签。测试数据仅提供数据。OCNLI为中文语言理解基准测评(CLUE)的一部分。
数据格式

id 句子1 句子2 label
0 "一月份跟二月份肯定有一个月份有" "肯定有一个月份有 " 0

label包括[蕴含,0(entailment),中性,1(neutral),不相关2(contradiction)]

TNEWS:
id 句子1 label
0 上课时学生手机响个不停,老师一怒之下把手机摔了,家长拿发票让老师赔,大家怎么看待这种事? 108
OCEMOTION:
id 句子1 label
0 我只是自私了一点,做自己想做的事情! sadness
1 让感动的不仅仅是雨过天晴,还有泪水流下来的迷人眼神。 happiness

环境配置

https://huggingface.co/bert-base-chinese/tree/main下载pytorch_model.bin, vocab.txt 和config.json 文件。放在bert_train_model 文件夹下。

bert.png

运行generate_data.py 划分训练集和验证集

运行train.py 训练预训练模型


运行打印结果.png

docker上传

1.本地安装docker for mac
2.申请阿里云镜像


阿里云.png

在submission文件夹下运行命令


submission文件夹下文件.png
docker login registry.cn-hangzhou.aliyuncs.com
docker build -t registry.cn-shanghai.aliyuncs.com/corn_ai/corn_tianchi_submit:1.0 .
dockerBuild.png
docker push registry.cn-shanghai.aliyuncs.com/corn_ai/corn_tianchi_submit:1.0
dockerPush.png

最后提交docker结果


提交.png 两个epoch,bachsize = 16结果.png

相关文章

  • nlp_task1

    教程:https://tianchi.aliyun.com/forum/postDetail?postId=145...

  • datawhale/nlp_task1

    准确率:在给定数据集下,分类器能正确分类的样本数占总样本数的比例。 精确率:精确率是针对我们预测结果而言的,表示预...

网友评论

      本文标题:nlp_task1

      本文链接:https://www.haomeiwen.com/subject/atcxfltx.html