美文网首页
IR_Project1_TASK1——grobid从安装到使用

IR_Project1_TASK1——grobid从安装到使用

作者: AndrewMyh | 来源:发表于2018-09-24 01:34 被阅读0次

    (其实原先写了一些,但没联网保存,退出后就都没了,所以就鸽了几天彩重新开始写)

    这学期上王焱老师的信息检索课,老师第一节课劝退的时候甩出了两个大作业,其中一个就是做一个文献检索的网站:

    任务要求

    第一部要做的是使用grobid将pdf解析成xml。在做的时候遇到了许多问题,网上的相关资料又特别少,所以写这一篇介绍来分享一下做过程中的的各种坑收获。

    一、下载安装:

    1)下载

    官方文档:https://grobid.readthedocs.io/en/latest/Install-Grobid/

    左侧找到install ,点击框选部分,可以来到grobid项目的gayhub页面(mac用户用终端直接下载安装)

    文档

    点击release,进入发行版的下载,根据环境选择win或linux的版本:

    gayhub 下载界面

    等待下载完成,解压后将得到:core是核心程序,里面有各种api的测试文件,home等下说作用(见javaAPI),gradlew是用来开启服务的文件,至于其他的bin,doc应该都懂蛤,不懂的也不影响后续的使用。

    文件目录

    2)安装

    按官网给的方法,需要进入文件目录,然后gradlew clean install:

    官网说明 cd进目录,然后执行

    实现的时候将会下一堆的jar包,很慢很慢,对于加快的方法,兴许挂一个V批嗯可能会有用(但我挂的时候没感觉多快)

    安装结束后会有一个原谅色的大大的:

    安装完成

    3)启动服务

    按官网的说明,在目录里用命令行输入:gradlew run就可以在本地8070端口启动服务:

    官网说明

    试试:

    运行 出现大大的grobid

    接下来在浏览器输入http://localhos:8070就可以在浏览器查看grobid服务:

    网页服务

    至此,grobid下载安装启动就完成了,接下来介绍下使用:

    二、使用

    1)网页GUI使用

    这是最简单的一种使用方式,这里介绍下它的几种模式:

    网页

    TEI是最主要的使用方式,我们可以用它来处理pdf文档

    PDF是用于处理带标注的PDF文档

    Patent用于处理专利相关的文档?(这个官网的介绍有点看不懂,贴在下面,英语好的可以自己看)

    官方介绍

    在PDF下我们可以选择几种模式:

    三种模式

    header:处理论文的头部,处理论文从论文名到摘要的内容

    fulltext:处理全文档,包括头部和引用

    reference:处理论文的引用部分的内容

    一般我们使用fulltext,因为它包含其他两个部分的内容,而在这个选项下又有其他选项,就按默认的来:

    选项

    接下来可以点击select file选择pdf文件,然后点击submint,等待几十秒,就可以在下方看到输出,你也可以将xml文件下载下来:

    结果

    好了,至此,你就可以把老师给的1000篇文档交给小组的其他成员,一人处理250篇。一个半小时就可以结束

    但这种方式无法批量处理文档,怎么办呢?

    2)javaAPI的使用

    官网细心地给出了两个example,大家闲得无聊的可以下下来看看:

    https://github.com/kermitt2/grobid-example

    https://github.com/kermitt2/grobid-test-ant

    经过我的踩的一个个坑,得出了以下调用方式(以grobid-example为例):

    初始化引擎 配置文件 调用 其他函数的使用方式的位置 额外的jar包

    但是在我使用的时候,一度陷入了量子状态,一会儿可以一会儿又报错的,而且报错的地方又在十分内部的地方,百度谷歌都找不到解决方法,于是我弃疗了。

    3)curl的使用

    在我的JAVA程序进入了量子状态后,我把眼睛投向了官网给出的第二种方法:curl,看起来好简单的!curl只需要一行代码诶!

    curl的介绍

    curl是什么呢?就是在使用命令行来访问网站,win10貌似自带,cd进目录,执行:

    win10自带欸  命令行使用curl

    以上红框部分是cd进目录并执行curl的演示,白框和蓝款是回车后的结果,其中,白框是curl向本地服务器8070端口发送的数据,蓝框是本地服务器返回的结果,包括头部和数据。

    这个要怎么批量处理嘞?等等!貌似python有个os库有系统相关的东西,一查,果然——os.popen("cmd命令")可以用于调用cmd,在参数中传入cmd命令,接受cmd的结果

    那我们就用python大法处理pdf文件吧,如下图,再写个保存和for循环就可以了,美滋滋啊!

    代码及运行

    但在处理的时候发现一些文档会有编码问题:

    编码问题

    这是为什么呢?百度后得知win10中国区的cmd默认编码是gbk,而当文档中出现其他gbk外的西文字符时,将出现这个问题,知道问题所在后,我用修改注册表的方式修改了cmd的编码方式,但这时候又出现了没有被服务器拒绝的问题:

    为什么要拒绝我嘞!!!

    找了半天找不到解决方法,但在寻找的过程中,我发现了curl貌似是个比较过时的东西,现在大家用的都是

    貌似是urllib和request了,啥?urllib?request?老朋友啊!!

    4)webAPI调用

    python大法好

    python大法好

    python大法好

    官方文档给出了api的使用方法:

    P! P2

    所以我们知道可以向http://localhost:8070/api/processFulltextDocument用post方法将文档发送过去,然后得到xml的response,在post的数据端中有一个必填的input,值为文档二进制内容,选填的我们可以不管:

    核心代码

    OVER

    下面是我的公众号,经常有干货分享哦!

    不关注一波?

    图源:手动截图

    相关文章

      网友评论

          本文标题:IR_Project1_TASK1——grobid从安装到使用

          本文链接:https://www.haomeiwen.com/subject/wmbqoftx.html