日常的工作可能不是那么一帆风顺,有的时候需要苦逼的自己去标注数据(没错就是我。。哈哈)。标注工作听起来很容易,但是一般的分类的任务还好说,几个分类就设几个文件夹,但是对于NLP的序列标注任务可能就没有那么方便了~
本文章分享了一个笔者自己调整后的使用于序列标注任务的工具【NER_label_dxc】。欢迎大家来使用~~~
本工具也是踩在巨人的肩膀上的~首先要感谢的就是巨人们的工作。
本工具的框架基本上是基于【NoobZ2】老哥的的NER标注工具,使用起来也十分的方便。可惜对于最终的转换格式和自己的任务不是很匹配所以在其工具上面做了一些调整例如:前后文件切换,生成文件直接是BIOS的格式的标注形式(大家也可以自行在py文件中调整为BIOES的格式)。其github网址为:【https://github.com/NoobZ2/Annotation】
使用目的:本工具是面向那些想要(当然这是很苦逼的工作),好消息是一般来说只要有500+的数据,再迭代的半监督训练,就基本上可以帮助自己的bert或者albert+CRF取得不错的效果。、
如果想要知道如何写代码跑起来,可以参考之前的这篇文章,对应的colab代码可能会有一些代码上面的调整,因为使用的苏大神的bert4keras更新的很快。
依赖环境:
python3+
tkinter(一个小巧的GUI库,可以通过pip install tkinter安装)
使用方法:
进入标注界面使用步骤展示
1,进入标注界面,win用户用cmd进去文件夹然后python命令运行就好了。
2,把所有的代标注文本(用txt文件保存),放入【./data/in/】文件夹下。
文件路径3,导入数据,就可以对其中的文本进行标注了。注意只能使用让光标从左到右的标注(从右到左还不支持),标注即点击中间一栏的,如图就是如:work_loc、person这样子的类别。标注过后的效果可以从右侧栏查看。
待标注文本以及标注效果4,点击导出文件,即弹出对话框提示生成的文件名,保存路径为【./data/out/】文件夹
导出标注文件5,标注效果
标注效果本工具的github地址为:【https://github.com/dengxc1220/NER_Label_tool】,文件不大,只有200+kb。
欢迎大家来捧场加星~~~
网友评论