项目地址:https://github.com/doccano/doccano
部署地址:http://:8901/
简介
doccano is an open source text annotation tool for humans. It provides annotation features for text classification, sequence labeling and sequence to sequence tasks. So, you can create labeled data for sentiment analysis, named entity recognition, text summarization and so on. Just create a project, upload data and start annotating. You can build a dataset in hours.
简单来说目前支持三种类型的标注:
- 文本分类
- 机器翻译
- NER
下面截图中的Text to sql是被当作了一种机器翻译任务来做,但是实际中如果对于多个表格进行SQL标注可能会有很多不方便的地方
![](https://img.haomeiwen.com/i2526116/4649465fa82e6622.gif)
测试用用户名及密码
admin
- 用户名:testadmin
- 密码:testadmin_1432
普通用户
-
用户名:test_user_1
-
密码:test_password_1
-
用户名:test_user_2
-
密码:test_password_2
使用感受
- 目前一个项目不能够对不同的标注着分配不同的任务,网友给出了一个二次开发示例(link)
- 看issue比较活跃,目前是1.0版本,目测bug还是蛮多的,不过用起来还算流畅,而且界面比较美观
使用
注册新用户
需要设置正确的邮箱才能注册成功,测试公司的邮箱似乎收不到注册邮件,可以用其他的试试,然后会收到确认邮件,点击链接即可完成激活
![](https://img.haomeiwen.com/i2526116/cf8d8bdd24e57f14.png)
项目管理界面(注:只有管理员权限的可以)
![](https://img.haomeiwen.com/i2526116/86f9fdacc1eb9ea3.png)
创建新项目
![](https://img.haomeiwen.com/i2526116/4ce1287fd951bd19.png)
这里:
-
document classification
对应文本打标签/文本分类 -
sequence labeling
对应NER任务 -
sequence to sequenec
对应机器翻译、Text to SQL等任务 speech to text
数据管理页面(以文本分类任务为例)
上传数据
![](https://img.haomeiwen.com/i2526116/7d26c511b4e23b01.png)
注:这里可以直接选择Plain上传txt格式的数据,并且可以多次上传
标签管理
![](https://img.haomeiwen.com/i2526116/7ba2f2cf33fb0322.png)
分配人员
![](https://img.haomeiwen.com/i2526116/aa61838ffd589019.png)
数据标注
![](https://img.haomeiwen.com/i2526116/589c17e15bb13e6f.png)
安装与配置踩坑记录
说明:已在个人服务器http://:8901/ 启服务,但是当时没有相关记录,因此重新在笔记本ubuntu子系统中进行配置并记录,有些内容则采用服务器的进行截图
ubuntu子系统:
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=18.04
DISTRIB_CODENAME=bionic
DISTRIB_DESCRIPTION="Ubuntu 18.04.2 LTS"
通过python解释器启动
-
下载:doccano-master.zip,或通过
git clone https://github.com/doccano/doccano.git
-
按照以下操作进行
$ cd doccano/app $ pip install -r requirements.txt $ python manage.py migrate $ python manage.py create_roles $ python manage.py create_admin --noinput --username "admin" --email "admin@example.com" --password "password" $ python manage.py runserver
一些坑
- 此项目是基于python3,python2会有一些包的版本冲突问题
- 在pip requirements的时候安装psycopg2遇到报错:
Error: pg_config executable not found
image.png
,则执行sudo apt-get install libpq-dev
(参考link)
-
(接上一步)再次pip会遇到这个问题
src/pyodbc.h:56:10: fatal error: sql.h: No such file or directory
:!image.png
,因此执行:sudo apt install unixodbc-dev
(参考link),然后再次进行pip -
按照文档提示执行python manage.py 等指令后,在最后一步runserver起来服务后,访问
127.0.0.1:8000
会产生报错:
image.png
,在终端也会显示报错FileNotFoundError: [Errno 2] No such file or directory: '/mnt/e/MyGitCode/doccano-master/app/server/static/webpack-stats.json'
,实际上我们还没有启动前端的服务...因此,我们需要进入doccano/app/server/static/
中,执行npm install
,完毕后我们需要执行npm run build
,然后执行npm start
,然后再启动mangage -
如果遇到一个
Error: Can't resolve 'vue-chartjs/es/mixins/reactiveProp'
的错误,这时候我们需要执行npm install vue-chartjs chart.js --save
(参考link) -
(重要)接
4
:为了让外部可以访问链接,可能需要修改:-
app/server/static/webpack.config.js
的这些地方:
image.png
-
app/app/settings.py
的这些地方:
image.png
-
-
执行
python manage.py runserver 0.0.0.0:8901
,此时可以通过此url进行访问 -
如果在注册页面出现
decode error
,可能将/app/authentification/views.py
的43行后面的.decode()
注释掉 -
注册新用户需要邮箱认证,因此需要设置发送邮件的邮箱信息,在
/app/settings.py
的这里进行配置:
image.png
(参考:link, link)
网友评论