IR_Project1_TASK1——grobid从安装到使用

IR_Project1_TASK1——grobid从安装到使用

作者: AndrewMyh | 来源:发表于2018-09-24 01:34 被阅读0次

IR_Project1_TASK1——grobid从安装到使用
supervisor 从安装到使用
cocoapods从安装到使用
cocoaPods从安装到使用
OCLint从安装到使用
Git从安装到使用(一)
IDEA从安装到使用git
初识Mongodb,从了解，安装到使用。
Appium初步，从安装到使用Junit
cocoapods从安装到使用全新指南

（其实原先写了一些，但没联网保存，退出后就都没了，所以就鸽了几天彩重新开始写）

这学期上王焱老师的信息检索课，老师第一节课劝退的时候甩出了两个大作业，其中一个就是做一个文献检索的网站：

任务要求

第一部要做的是使用grobid将pdf解析成xml。在做的时候遇到了许多问题，网上的相关资料又特别少，所以写这一篇介绍来分享一下做过程中的~~的各种坑~~收获。

一、下载安装：

1）下载

官方文档：https://grobid.readthedocs.io/en/latest/Install-Grobid/

左侧找到install ,点击框选部分，可以来到grobid项目的gayhub页面（mac用户用终端直接下载安装）

文档

点击release，进入发行版的下载，根据环境选择win或linux的版本：

gayhub

下载界面

等待下载完成，解压后将得到：core是核心程序，里面有各种api的测试文件，home等下说作用（见javaAPI），gradlew是用来开启服务的文件，至于其他的bin,doc应该都懂蛤，不懂的也不影响后续的使用。

文件目录

2）安装

按官网给的方法，需要进入文件目录，然后gradlew clean install：

官网说明

cd进目录，然后执行

实现的时候将会下一堆的jar包，很慢很慢，对于加快的方法，兴许挂一个V批嗯可能会有用（但我挂的时候没感觉多快）

安装结束后会有一个原谅色的大大的：

安装完成

3）启动服务

按官网的说明,在目录里用命令行输入：gradlew run就可以在本地8070端口启动服务：

官网说明

试试：

运行

出现大大的grobid

接下来在浏览器输入http://localhos:8070就可以在浏览器查看grobid服务：

网页服务

至此，grobid下载安装启动就完成了，接下来介绍下使用：

二、使用

1)网页GUI使用

这是最简单的一种使用方式，这里介绍下它的几种模式：

网页

TEI是最主要的使用方式，我们可以用它来处理pdf文档

PDF是用于处理带标注的PDF文档

Patent用于处理专利相关的文档？（这个官网的介绍有点看不懂，贴在下面，英语好的可以自己看）

官方介绍

在PDF下我们可以选择几种模式：

三种模式

header：处理论文的头部，处理论文从论文名到摘要的内容

fulltext:处理全文档，包括头部和引用

reference:处理论文的引用部分的内容

一般我们使用fulltext，因为它包含其他两个部分的内容，而在这个选项下又有其他选项，就按默认的来：

选项

接下来可以点击select file选择pdf文件，然后点击submint，等待几十秒，就可以在下方看到输出，你也可以将xml文件下载下来：

结果

~~好了，至此，你就可以把老师给的1000篇文档交给小组的其他成员，一人处理250篇。一个半小时就可以结束~~

但这种方式无法批量处理文档，怎么办呢？

2)javaAPI的使用

官网细心地给出了两个example，大家闲得无聊的可以下下来看看:

https://github.com/kermitt2/grobid-example

https://github.com/kermitt2/grobid-test-ant

经过我的踩的一个个坑，得出了以下调用方式（以grobid-example为例）：

初始化引擎

配置文件

调用

其他函数的使用方式的位置

额外的jar包

但是在我使用的时候，一度陷入了量子状态，一会儿可以一会儿又报错的，而且报错的地方又在十分内部的地方，百度谷歌都找不到解决方法，于是我弃疗了。

3）curl的使用

在我的JAVA程序进入了量子状态后，我把眼睛投向了官网给出的第二种方法：curl，看起来好简单的！curl只需要一行代码诶！

curl的介绍

curl是什么呢？就是在使用命令行来访问网站，win10貌似自带，cd进目录，执行：

win10自带欸

命令行使用curl

以上红框部分是cd进目录并执行curl的演示，白框和蓝款是回车后的结果，其中，白框是curl向本地服务器8070端口发送的数据，蓝框是本地服务器返回的结果，包括头部和数据。

这个要怎么批量处理嘞？等等！貌似python有个os库有系统相关的东西，一查，果然——os.popen("cmd命令")可以用于调用cmd,在参数中传入cmd命令，接受cmd的结果

那我们就用python大法处理pdf文件吧,如下图，再写个保存和for循环就可以了，美滋滋啊！

代码及运行

但在处理的时候发现一些文档会有编码问题：

编码问题

这是为什么呢？百度后得知win10中国区的cmd默认编码是gbk，而当文档中出现其他gbk外的西文字符时，将出现这个问题，知道问题所在后，我用修改注册表的方式修改了cmd的编码方式，但这时候又出现了没有被服务器拒绝的问题：

为什么要拒绝我嘞！！！

找了半天找不到解决方法，但在寻找的过程中，我发现了curl貌似是个比较过时的东西，现在大家用的都是

貌似是urllib和request了,啥？urllib？request?老朋友啊！！

4）webAPI调用

python大法好

python大法好

python大法好

官方文档给出了api的使用方法：

P!

P2

所以我们知道可以向http://localhost:8070/api/processFulltextDocument用post方法将文档发送过去，然后得到xml的response，在post的数据端中有一个必填的input，值为文档二进制内容，选填的我们可以不管：

核心代码

OVER

下面是我的公众号，经常有干货分享哦！

不关注一波？

图源：手动截图

相关文章

IR_Project1_TASK1——grobid从安装到使用
（其实原先写了一些，但没联网保存，退出后就都没了，所以就鸽了几天彩重新开始写）这学期上王焱老师的信息检索课，老师...
supervisor 从安装到使用
一、安装源码安装先下载最新的supervisor安装包：https://pypi.python.org/pyp...
cocoapods从安装到使用
什么是cocoapods CocoaPods是一个用来帮助我们管理第三方依赖库的工具。它可以解决库与库之间的依赖关...
cocoaPods从安装到使用
cocoaPods作为iOS开发管理第三方库的神器，就不具体介绍了。本文介绍 cocoaPods的安装 cocoa...
OCLint从安装到使用
今天公司进行了前端的代码规范培训，趁着今天有时间，就研究下。参考链接： OCLint从安装到使用： https:...
Git从安装到使用(一)
刚去一个新公司,发现新公司使用的是 Git, 之前都是使用的 SVN, 看了网上的教程好多也是零零散散,本人整理了...
IDEA从安装到使用git
日常记录自己安装过程，备忘~ 1.安装最全攻略（试用新手小白，我就是哈哈）之前百度了很多，安装过程中也出错了好几...
初识Mongodb,从了解，安装到使用。
关于Docker的基础知识相关内容基本上写完了，剩下的就是需要我们去多多熟练学习了。一篇知识的完毕，不是结束，而是...
Appium初步，从安装到使用Junit
Appium架构 Appium是一个C/S 架构，所谓的C/S架构，就是一个Clicent和一个Server端，这...
cocoapods从安装到使用全新指南
应该会有人问，现在cocoapods的使用教程都烂大街了，你这么写有意思吗？我想说还是有必要的，技术在不断变化，其...

网友评论

本文标题：IR_Project1_TASK1——grobid从安装到使用

本文链接：https://www.haomeiwen.com/subject/wmbqoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|IR_Project1_TASK1——grobid从安装到使用|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！