Google BERT应用之《红楼梦》对话人物提取

作者: _愿风裁尘 | 来源:发表于2020-11-23 20:29 被阅读0次

Google BERT应用之《红楼梦》对话人物提取
Google BERT应用之《红楼梦》对话人物提取
Serving Google BERT in Productio
干货 | BERT fine-tune 终极实践教程
BERT 论文 - 第一作者的 Reddit 解读说明翻译
使用 Rasa Forms 构建上下文助手
Google Play 更新指南 | 提高您的应用质量与曝光度
BERT代码解读(2)-模型
BERT代码解读(3)-输出
BERT代码解读(1)-输入

Google BERT应用之《红楼梦》对话人物提取 | 机器之心 (jiqizhixin.com)

之前看到过一篇文章，通过提取文章中对话的人物，分析人物之间的关系，很好奇如何通过编程的方式知道一句话是谁说的。但是遍搜网络没有发现类似的研究。

前段时间看到一个微信里的读书小程序，将人物对话都提取出来，将一本书的内容通过微信对话的方式表达出来，通过将对话的主角替换成读者的微信号以及用户头像，从而增加读者的代入感。试了之后非常佩服程序作者的巧思。这使得我写一个自然语言处理程序，提取书中对话，以及对话人物的念头更加强烈。

之前并没有多少 NLP 的经验，只零碎试过用 LSTM 训练写唐诗，用 jieba 做分词，用 Google 的 gensim 在 WikiPedia 中文语料上训练词向量。最近 Google 的 BERT 模型很火，运行了 BERT 的 SQuAD 阅读理解与问答系统，分类器以及特征提取例子之后，觉得这个任务可以用 BERT 微调来完成，在这里记录实验的粗略步骤，与君共勉。

我把训练数据和准备数据的脚本开源，放在 GitLab 上，开放下载。