美文网首页
人工智能AI入门 2.2 BERT 多分类文本分类与实体命名

人工智能AI入门 2.2 BERT 多分类文本分类与实体命名

作者: YueTan | 来源:发表于2019-03-05 23:11 被阅读0次

Bert 预处理模型是谷歌于2018年末发布的state of the art 模型,所以就研究一下

文本分类:

传统的中文文本分类主要包括分词(jieba),特征提取(chi-square),特征权重(tfidf),分类模型(SVM)等步骤
现在用到的其实主要都是深度学习模型。主要如CNN,LSTM,Attention等模型。流程上也是分词,词向量embedding,模型如上所述用来自动提取特征,分类模型一般用softmax作为最后一层。
一些技巧:

  • 中文可以采用字向量或者分词后的词向量
  • 词向量可以random,finetune,static
  • 词向量方法可以word2vec, glove, fasttext, 以及合成版本
  • 模型的选择

bert tensorflow的版本其实google直接发布好了,只需要根据自己的数据加一个processor。具体可参考
https://github.com/LongxingTan/Text_classification

同时,bert的tensorflow版本用了TensorFlow的tf.data 与tf.estimator系列的API。同时保存为二进制的tf_record都是为了更快的完成训练。具体实现就很简单了,
从谷歌个google-bert下载中文预训练,模型里面可以直接从最后一层的最后一个状态输出,后面接一个dropout和dense层就完成模型搭建了。
因为模型困难部分其实都有谷歌训练完成,已经具备了文本的理解。

实体命名

然后也抓紧用了一下实体命名,区别应该就是bert这次输出的不光是最后一个状态,而是sequence output。其他就同样加上crf层就搞定了,简单试了一下也可以跑了
https://github.com/LongxingTan/Named_entity_recognition

transformer 帮助理解的资料

http://nlp.seas.harvard.edu/2018/04/03/attention.html
[http://jalammar.github.io/illustrated-transformer/]
(http://jalammar.github.io/illustrated-transformer/)

相关文章

网友评论

      本文标题:人工智能AI入门 2.2 BERT 多分类文本分类与实体命名

      本文链接:https://www.haomeiwen.com/subject/hyoejqtx.html