美文网首页
关于Apache Tika的学习和使用

关于Apache Tika的学习和使用

作者: Carina_55 | 来源:发表于2018-05-18 23:47 被阅读0次

    一. Apache Tika的简介

    Apache Tika 是利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具,编程语言为Java。

    其功能包括:
    1.侦测文档的类型,字符编码,语言,等其他现有文档的属性。
    2.提取结构化的文字内容。

    Tika的架构:
    下图为Tika的架构以及关键零部件的主要设计目标:由一个解析器框架,MIME检测机制,语言检测,和一个facade组件联系所有组件。外部接口,包括命令行和图形界面,允许用户集成到脚本或者应用程序,并与Tika直接交互。在整个结构中,Tika的体系结构是可扩展的,新的解析器可以轻松地添加和删除。


    1358587548_5967.JPG

    二. Tika的下载及安装

    下载并配置Java JDK
    下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar

    image

    在cmd里键入命令打开GUI图形界面


    QQ图片20180521224546.png
    image.png

    三. 文件解析

    先编写一个二进制文件tika.txt


    QQ图片20180521224615.png

    用GUI图形界面打开这个文件,显示提取的元数据Metadata


    QQ图片20180521224605.png

    再将其解析为其他格式
    Formatted Text


    QQ图片20180521224622.png

    Plain text


    QQ图片20180521224626.png
    Main content为空
    QQ图片20180521224630.png
    XML
    QQ图片20180521224635.png

    json


    QQ图片20180521224639.png

    四. 用命令行使用tika

    查看Tika命令行的基本参数


    QQ图片20180521224642.png

    用命令将解析doc文件


    QQ图片20180521224655.png

    相关文章

      网友评论

          本文标题:关于Apache Tika的学习和使用

          本文链接:https://www.haomeiwen.com/subject/ktondftx.html