背景

如今这个大数据的时代，爬虫屡见不鲜，提起爬虫大家第一反应肯定是python，诚然python有优势，但是其实java干这事也不赖，今天博主就来实践一下，用大名鼎鼎的Nutch来实现一个爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

安装

博主使用centos7，所以这里只介绍centos7的安装方法

JDK安装

//linux一般默认安装opensdk需要先卸载:
java -version
rpm -qa | grep java
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
cd /usr
mkdir java
//下载jdk 1.7 gz包
//www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
//xshell传过去
tar -zxvf xxxxxxxx.gz  //解压
vi /etc/profile       //配置环境变量
export      JAVA_HOME=/usr/java/jdk1.7.67_10
export     CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export     PATH=$PATH:$JAVA_HOME/bin
source /etc/profile   //使配置生效
java -version   //查看是否安装成功

tomcat安装

//下载tomcat.apache.org/download-70.cgi
xshell传到/usr目录下
tar -zxvf apache-tomcat-7.0.70.tar.gz  //解压
mv apache-tomcat-7.0.70 tomcat   //改名
rm -rf apache-tomcat-7.0.70.tar.gz  //删包
chomod -R 777 tomcat           //权限
cd tomcat/bin
./startup.sh                        //执行
localhost：8080 查看是否安装成功

nutch1.12安装

//下载http://nutch.apache.org/downloads.html     Apache Nutch 1.12 (bin.tar.gz)
xshell传到/usr目录下
tar -zxvf apache-nutch-1.12-bin.tar.gz   //解压
mv apache-nutch-1.12 nutch  //改名
chmod -R 777 nutch/   //权限
cd /bin
./nutch    //查看是否安装成功

修改Nuthc安装目录下：conf/nutch-site.xml，在<configuration></configuration>之间增加如下配置

300b3d4183f4c2c28ee5ea2943ca03a3.gif

在Nutch安装目录下创建urls目录，并在其中创建seed.txt文件，将要爬的网站的名称写到seed.txt中。注意，网站最后要加/。如需要写成http://www.baidu.com/这种形式。
在Nutch安装目录下创建result目录，放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下，也可以放到其他任意目录下。
爬虫执行完成后，可以通过如下命令来查看结果：