美文网首页
一个便于标注序列标注任务数据(NLP任务)的工具

一个便于标注序列标注任务数据(NLP任务)的工具

作者: dengxc | 来源:发表于2020-06-08 14:25 被阅读0次

日常的工作可能不是那么一帆风顺,有的时候需要苦逼的自己去标注数据(没错就是我。。哈哈)。标注工作听起来很容易,但是一般的分类的任务还好说,几个分类就设几个文件夹,但是对于NLP的序列标注任务可能就没有那么方便了~

本文章分享了一个笔者自己调整后的使用于序列标注任务的工具【NER_label_dxc】。欢迎大家来使用~~~

本工具也是踩在巨人的肩膀上的~首先要感谢的就是巨人们的工作。

本工具的框架基本上是基于【NoobZ2】老哥的的NER标注工具,使用起来也十分的方便。可惜对于最终的转换格式和自己的任务不是很匹配所以在其工具上面做了一些调整例如:前后文件切换,生成文件直接是BIOS的格式的标注形式(大家也可以自行在py文件中调整为BIOES的格式)。其github网址为:【https://github.com/NoobZ2/Annotation】

使用目的:本工具是面向那些想要(当然这是很苦逼的工作),好消息是一般来说只要有500+的数据,再迭代的半监督训练,就基本上可以帮助自己的bert或者albert+CRF取得不错的效果。、

如果想要知道如何写代码跑起来,可以参考之前的这篇文章,对应的colab代码可能会有一些代码上面的调整,因为使用的苏大神的bert4keras更新的很快。

依赖环境:

    python3+

    tkinter(一个小巧的GUI库,可以通过pip install tkinter安装)

使用方法:  

进入标注界面

使用步骤展示

1,进入标注界面,win用户用cmd进去文件夹然后python命令运行就好了。

2,把所有的代标注文本(用txt文件保存),放入【./data/in/】文件夹下。

文件路径

3,导入数据,就可以对其中的文本进行标注了。注意只能使用让光标从左到右的标注(从右到左还不支持),标注即点击中间一栏的,如图就是如:work_loc、person这样子的类别。标注过后的效果可以从右侧栏查看。

      待标注文本以及标注效果

4,点击导出文件,即弹出对话框提示生成的文件名,保存路径为【./data/out/】文件夹

导出标注文件

5,标注效果

标注效果

本工具的github地址为:【https://github.com/dengxc1220/NER_Label_tool】,文件不大,只有200+kb。

欢迎大家来捧场加星~~~

相关文章

  • 一个便于标注序列标注任务数据(NLP任务)的工具

    日常的工作可能不是那么一帆风顺,有的时候需要苦逼的自己去标注数据(没错就是我。。哈哈)。标注工作听起来很容易,但是...

  • 关键词提取

    NLP四大任务介绍 NLP领域有四大任务:分类、生成、序列标注和句子对标注。分类任务比较好理解,比如我们要做一个识...

  • NLP知识图谱框架

    一、NLP分类: 1.word level:序列标注任务:分词、词性标注、命名实体识别2.sentence lev...

  • 序列标注任务数据增强

    在上一篇文章我们学习了基本的数据增强的 N 种方法,今天我们针对“序列标注”任务具体聊一聊如何数据增强?“序列标注...

  • 献给学习NLP的同学们[持续更新ing]

    NLP资源汇总 NLP四大任务类型:分类、序列标注、文本匹配、文本生成练习地址:https://github.co...

  • 使用文本标注工具-doccano

    doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的...

  • 中文序列标注任务(一)

    简介: 记录使用中文语料,测试实践,序列标注任务,主要使用 huggingface 提供的一系列 数据加载库:da...

  • 中文序列标注任务(二)

    简介 记录中文序列标注任务:动宾搭配识别,主要学习代码中的数据处理,评价函数,模型搭建部分 1. 数据长这样: 采...

  • 序列标注任务常用方法

    1. HMM 1.1 模型原理 HMM中,有5个基本元素:{N,M,A,B,π},结合序列标志任务(NER)对其的...

  • Anaconda,doccano(NLP工具包)的安装使用

    NLP标注工具——doccano 大致功能:支持命名实体识别,情感分类,机器翻译任务,界面比较友好。 环境: wi...

网友评论

      本文标题:一个便于标注序列标注任务数据(NLP任务)的工具

      本文链接:https://www.haomeiwen.com/subject/ynproctx.html