Apache Tika使用报告

作者: 㭍葉 | 来源:发表于2017-05-15 23:53 被阅读1541次

    实验对象:Apache Tika
    实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识


    目录

    1. Apache Tika简介
    2. 配置Apache Tika运行环境
    3. 用GUI图形界面进行文件格式转换的尝试
    4. 用命令行使用Tika
    5. 在java工程中使用Tika

    1. Apache Tika 简介


    Apache Tika是一个用java编写的内容检测和分析框架,是ApacheLucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。 Tika诞生历程

    Tika 架构

    Tika 体系结构的四个模块

    • 语言检测机制
    • MIME检测机制
    • Parser接口
    • Tika Facade类

    Tika主要功能

    • 文档类型检测
    • 内容提取
    • 元数据提取
    • 语言检测

    2. 配置Apache Tika运行环境

    验证java环境


    如果没有配置java环境,请下载配置Java JDK
    下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar Tika官网的下载页面

    在cmd里键入命令打开GUI图形界面


    命令行打开tika

    3. 用GUI图形界面进行文件格式转换的尝试

    编写一个二进制文件tika_test.txt放在C:\目录下


    tika_test.txt

    把tika_test.txt拖进gui里,默认显示提取的元数据

    MetaData

    解析成Formatted Text


    Formatted Text

    解析成Plain text


    Plain text
    提取Main content 居然是空的
    Main content
    解析成XML
    xml

    解析成json


    json

    4. 用命令行使用Tika

    先来查看Tika命令行的基本参数


    基本参数

    用命令把doc解析为text


    doc text

    5. 在java工程中使用Tika

    在Eclipse中新建Java项目,并导入tika-app-1.14.jar


    编写Test.java

    import org.apache.tika.Tika;
    
    import java.io.*;
    
    /**
     * Created by Administrator on 2017/5/15.
     */
    public class Test {
        public static void main(String[] args) throws Exception{
            //二进制文件路径
            String fileName="c:/tika_test.txt";
    
            //二进制文件
            File file1 = new File(fileName);
    
            //通过tika获取文件内容
            Tika tika = new Tika();
            String filecontent = tika.parseToString(file1);
    
            //打印文件内容
            System.out.println("Extracted Content: " + filecontent);
    
            try{
    
                //要转换到的文件
                File file =new File("c:/ddd.doc");
    
                //文件不存在就新建
                if(!file.exists()){
                    file.createNewFile();
                }
    
                //把二进制文件内容写入doc文件
                FileWriter fw = new FileWriter(file.getAbsoluteFile());
                BufferedWriter bw = new BufferedWriter(fw);
                bw.write(filecontent);
                bw.close();
    
                System.out.println("Done");
    
            }catch(IOException e){
                e.printStackTrace();
            }
    
        }
    }
    

    运行程序

    在Eclipse中运行

    生成ddd.doc,如下图



    生成的doc文件

    参考链接:
    Apache Tika from EN-Wikipedia
    Tika常见格式文件抽取内容并做预处理
    Apache Tika:通用的内容分析工具
    cmd中java -jar *.jar 提示Unable to access jarfile *.jar或Windows不能用鼠标双击运行jar文件怎么办解决方案
    TIKA环境配置
    相关链接:
    Apache Tika 官网
    Apache Tika Wiki
    Apache Tika in Github
    Book Tika in Action
    Natural Language Processing with Python
    潜在语义索引

    相关文章

      网友评论

        本文标题:Apache Tika使用报告

        本文链接:https://www.haomeiwen.com/subject/uawcxxtx.html