我相信大家都有过这样的需求,把doc、ppt、excel、pdf、txt中的文本内容提取出来。提取出来的文本内容可用于文档内容的全文索引,文档的基本内容摘要等。在度娘上搜索“如何提取文档内容”,确实有很多demo可以借鉴,但是,很多demo要么是需要付费的jar包,要么提取出的内容不全或者乱码。Java有许多开源工具包可用,尚且还不完美,何况其它一些开发语言如node、golang、ruby、python呢!
如果能有免费的API接口可以调用,那就不管是啥语言了,省时又省心,何乐而不为呢!基于此,我百度了下,没想到还真找到了。所以在此记录下,也希望能帮助到大家。
接口详细说明:https://www.xiaocongjisuan.com/show/api/11
接口介绍:提取word、ppt、pdf等文档中的内容返回给接口调用者
接口详细介绍中已经说的很清楚了,下面我简单说下注意事项:
1、关于appKey和openId
appKey:接口唯一标识,在用户后台->应用中心->我的接口查看
openId:平台id,注册后系统自动生成,在用户后台->用户中心->账户信息查看
2、关于文件传值
接口传值统一采用base64编码,由于get请求参数有长度限制,所以在调用api接口时,必须使用POST方式。【文档base64的编码值,请保持数据的完整性(可不带数据头),以TXT为例如:[“data:text/plain;base64,aHR0cHM6…”] 或 [“aHR0cHM6…”]】
3、错误码
接口返回的错误码,具体内容请查看接口详细说明
同时接口说明中也有各种开发语言的调用DEMO,如:java、python、php、c#、golang、nodeJS,其实不止上述这些语言,只要可以发出POST请求,就可以使用该接口,非常的方便。这个平台还有很多其它功能的接口,大部分是免费的。像什么天气预报、万年历、老黄历、中文分词、电影数据查询、电子书查询、网盘数据等等,大家慢慢去发现吧!相关代码我就不贴了,主要是编辑器不友好!!!
网友评论