美文网首页
爬虫-nutch

爬虫-nutch

作者: 码哥说 | 来源:发表于2019-03-22 17:39 被阅读0次

    背景

    如今这个大数据的时代,爬虫 屡见不鲜,提起爬虫大家第一反应肯定是python,诚然python有优势,但是其实java干这事也不赖,今天博主就来实践一下,用大名鼎鼎的Nutch来实现一个爬虫。
    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    安装

    博主使用centos7,所以这里只介绍centos7的安装方法

    1. JDK安装
    //linux一般默认安装opensdk需要先卸载:
    java -version
    rpm -qa | grep java
    rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
    rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
    cd /usr
    mkdir java
    //下载jdk 1.7 gz包
    //www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
    //xshell传过去
    tar -zxvf xxxxxxxx.gz  //解压
    vi /etc/profile       //配置环境变量
    export      JAVA_HOME=/usr/java/jdk1.7.67_10
    export     CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export     PATH=$PATH:$JAVA_HOME/bin
    source /etc/profile   //使配置生效
    java -version   //查看是否安装成功
    
    1. tomcat安装
    //下载tomcat.apache.org/download-70.cgi
    xshell传到/usr目录下
    tar -zxvf apache-tomcat-7.0.70.tar.gz  //解压
    mv apache-tomcat-7.0.70 tomcat   //改名
    rm -rf apache-tomcat-7.0.70.tar.gz  //删包
    chomod -R 777 tomcat           //权限
    cd tomcat/bin
    ./startup.sh                        //执行
    localhost:8080 查看是否安装成功
    
    1. nutch1.12安装
    //下载http://nutch.apache.org/downloads.html     Apache Nutch 1.12 (bin.tar.gz)
    xshell传到/usr目录下
    tar -zxvf apache-nutch-1.12-bin.tar.gz   //解压
    mv apache-nutch-1.12 nutch  //改名
    chmod -R 777 nutch/   //权限
    cd /bin
    ./nutch    //查看是否安装成功
    

    修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置


    300b3d4183f4c2c28ee5ea2943ca03a3.gif

    在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。
    在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。
    爬虫执行完成后,可以通过如下命令来查看结果:

    bin/nutch readdb result/crawldb/ -stats
    

    相关文章

      网友评论

          本文标题:爬虫-nutch

          本文链接:https://www.haomeiwen.com/subject/miwfmqtx.html