美文网首页
TIKA实验报告

TIKA实验报告

作者: 似水流年_yt | 来源:发表于2018-05-21 19:26 被阅读0次

                                       TIKA实验报告

    1.tika是什么

            Tika 是一个文本内容检测和解析工具,主要功能包括文档类型检测、内容提取、元数据提取、语言检测。我觉得就是把文本内容可以换成你想要的格式,便于人或计算机识别和读取,比如pdf转成word,把txt转成json等。

    2.Tika怎么安装

    1.配置java环境

    先去官网下载安装java jdk,安装成功后在本地cmd中输入java -version会有下图类似输出。

    检验java

    2下载Tika

    下载Tika的源代码tika-1.18-src.zip和Tika的jar包tika-app-1.18.jar

    tika-1.18-src.zip tika-app-1.18.jar

    3.Tika怎么使用

    在本地cmd中输入java -jar E:\tika\tika-app-1.18.jar(你的本地taki.jar路径)--gui。会进入Tika的GUI界面。

    Tika的GUI界面

    之后把你想要解析的东西直接拖进去就行了。默认显示提取的元数据,你可以在view随意切换成其他属性,view中一共有6中。

    元数据Metadata Formatted Tex Plain Text Main Content XML json

    4.实验过程的问题

    1.用迅雷下java官网的java jdk会下不了,会报错,打开之后是乱码,之后用百度云下载才成功的。

    报错 乱码

    2.cmd打开tika的gui界面的时候,tika的路径要是自己本地jar路径,不然打不开。还有-gui有可能打不开,-g可能打开的快一点,可以去java -jar E:\tika\tika-app-1.18.jar --help 查看相应命令。

    5.实验总结

    从本次实验中,了解了tika是什么东西和简单的运用,只是在本地打开和用tika是比较简单的,不过要用的好还是要多琢磨的。

    相关文章

      网友评论

          本文标题:TIKA实验报告

          本文链接:https://www.haomeiwen.com/subject/eaeqjftx.html