bert模型简单使用&app分类场景前期效果验证

bert模型简单使用&app分类场景前期效果验证

作者: yangy_fly | 来源:发表于2020-01-15 10:28 被阅读0次

bert模型简单使用&app分类场景前期效果验证
Bert预训练模型
Bert使用随笔
transformer编码层-Bert底层介绍
Transformer编码层-Bert深度
基于Tensorflow2.0 Keras简单实现Attenti
transformers中的bert用法
BERT 模型蒸馏 TinyBERT
深层神经网络2
如何将Bert句向量应用于深度神经网络中

好久没更新了，更新一个前一段时间做的项目的前期效果调研过程，目前已经在走工程化流程。

1、项目背景

基于app推送的文本内容隐含地表示了app的属性信息的假设，我们从app推送内容入手，使用NLP的方式尝试获取能够描述app属性的向量数据。同时期望该数据能够为app分类、用户分群等场景带来新的思路。以下调研结果和过程都是基于app分类的场景

2、调研结果

2.1、app多分类结果

category数量	app总数	有label的app数量	无label的app数量	验证集预测准确率	测试集model	测试集KNN(k=20)	测试集model+KNN
20	387	150	237	0.6	0.425	0.525	0.525

训练集共120个app（150*0.8），训练语料约32万条文本训练出120个app向量。
验证集共30个app（150*0.2），验证语料约8万条文本训练出30个app向量。
测试集共40个app。从237个无label的app向量中随机抽样了40个进行人工验证。
model预测准确率0.425（17/40）；KNN准确率是0.525（21/40）；结合model和KNN的预测准确率是0.525（21/40），与KNN结果的分子不完全重合。

2.2、推送语句聚类

category数量	带label的文本总数	测试文本数	KNN top1准确率（K=5、10、15、20）
10	4873	975(约20%*4873)	>90%

image.png

3、调研过程

3.1、数据说明(语料均做过去重/去相似处理)

所有数据概要说明

语料总数	app总数	群推语料数量	群推app数量	单推语料数量	单推app数量	重合app数量
783446	387	147079	110	636367	352	75

训练数据概要说明

训练语料总数	训练app数量	验证语料总数	验证集app数量	测试集语料总数	测试集app数量	app最少语料数	app最多语料数
320000	120	80000	30	378259	40	1	56715

训练语料数量分布(app维度)

image.png
训练category语料数量分布

category数量	category最少语料数	category最多语料数	最少app数及对应category	最多app数及对应category
20	5	99024	2:[教育、婚庆、钓鱼、行业交易平台、彩票]	29:[金融理财]

训练语料分布（category维度）

image.png

3.2、app向量聚类展示

image.png

3.3、模仿word2vec训练出app向量

image.png

4、后续改进

后续优化点

在保证每个app有充足训练语料的情况下，对文本数据做去重去相似处理（目前去重太多）
增加app标注数据（增加更多分类的训练数据）
app分类标注更准确，更多样化（一个app标注多个应属的category）

相关文章

bert模型简单使用&app分类场景前期效果验证
好久没更新了，更新一个前一段时间做的项目的前期效果调研过程，目前已经在走工程化流程。 1、项目背景基于app推送...
Bert预训练模型
NLP预训练模型简介旺达一、BERT简单文本分类实例 1、bert详细运行介绍--tensorflow htt...
Bert使用随笔
Bert使用使用Bert模型其中bert_config是BertConfig类，bert内部是从json配置文...
transformer编码层-Bert底层介绍
内容抄自：视频从中文Transformer到BERT的模型精讲,以及基于BERT情感分类实战[https://ww...
Transformer编码层-Bert深度
内容抄自：视频从中文Transformer到BERT的模型精讲,以及基于BERT情感分类实战[https://ww...
基于Tensorflow2.0 Keras简单实现Attenti
背景：文本分类，我们项目中自己标注了一些语句文本，希望将来可以自动对语句实现分类功能最早的模型就是简单的bert...
transformers中的bert用法
1. Bert模型下载这里直接使用huggingface提供的pre-trained的bert模型，直接去官网即...
BERT 模型蒸馏 TinyBERT
BERT 的效果好，但是模型太大且速度慢，因此需要有一些模型压缩的方法。TinyBERT 是一种对 BERT 压缩...
深层神经网络2
使用验证集判断模型效果为了评测神经网络模型在不同参数下的效果，一般会从训练集中抽取一部分作为验证数据。除了使用验...
如何将Bert句向量应用于深度神经网络中
Bert开源了预训练的中文模型,如果你想直接使用Bert模型生成句子向量(当做一个黑盒),并用于深度学习模型中,本...

网友评论

机器学习杂文

本文标题：bert模型简单使用&app分类场景前期效果验证

本文链接：https://www.haomeiwen.com/subject/hmttzctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

机器学习杂文

热点阅读

机器学习杂文

关于我们|服务条款|联系我们|bert模型简单使用&app分类场景前期效果验证|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！