TIKA实验报告
1.tika是什么
Tika 是一个文本内容检测和解析工具,主要功能包括文档类型检测、内容提取、元数据提取、语言检测。我觉得就是把文本内容可以换成你想要的格式,便于人或计算机识别和读取,比如pdf转成word,把txt转成json等。
2.Tika怎么安装
1.配置java环境
先去官网下载安装java jdk,安装成功后在本地cmd中输入java -version会有下图类似输出。
检验java2下载Tika
下载Tika的源代码tika-1.18-src.zip和Tika的jar包tika-app-1.18.jar。
tika-1.18-src.zip tika-app-1.18.jar3.Tika怎么使用
在本地cmd中输入java -jar E:\tika\tika-app-1.18.jar(你的本地taki.jar路径)--gui。会进入Tika的GUI界面。
Tika的GUI界面之后把你想要解析的东西直接拖进去就行了。默认显示提取的元数据,你可以在view随意切换成其他属性,view中一共有6中。
元数据Metadata Formatted Tex Plain Text Main Content XML json4.实验过程的问题
1.用迅雷下java官网的java jdk会下不了,会报错,打开之后是乱码,之后用百度云下载才成功的。
报错 乱码2.cmd打开tika的gui界面的时候,tika的路径要是自己本地jar路径,不然打不开。还有-gui有可能打不开,-g可能打开的快一点,可以去java -jar E:\tika\tika-app-1.18.jar --help 查看相应命令。
5.实验总结
从本次实验中,了解了tika是什么东西和简单的运用,只是在本地打开和用tika是比较简单的,不过要用的好还是要多琢磨的。
网友评论