背景
如今这个大数据的时代,爬虫 屡见不鲜,提起爬虫大家第一反应肯定是python,诚然python有优势,但是其实java干这事也不赖,今天博主就来实践一下,用大名鼎鼎的Nutch来实现一个爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
安装
博主使用centos7,所以这里只介绍centos7的安装方法
- JDK安装
//linux一般默认安装opensdk需要先卸载:
java -version
rpm -qa | grep java
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
cd /usr
mkdir java
//下载jdk 1.7 gz包
//www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
//xshell传过去
tar -zxvf xxxxxxxx.gz //解压
vi /etc/profile //配置环境变量
export JAVA_HOME=/usr/java/jdk1.7.67_10
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile //使配置生效
java -version //查看是否安装成功
- tomcat安装
//下载tomcat.apache.org/download-70.cgi
xshell传到/usr目录下
tar -zxvf apache-tomcat-7.0.70.tar.gz //解压
mv apache-tomcat-7.0.70 tomcat //改名
rm -rf apache-tomcat-7.0.70.tar.gz //删包
chomod -R 777 tomcat //权限
cd tomcat/bin
./startup.sh //执行
localhost:8080 查看是否安装成功
- nutch1.12安装
//下载http://nutch.apache.org/downloads.html Apache Nutch 1.12 (bin.tar.gz)
xshell传到/usr目录下
tar -zxvf apache-nutch-1.12-bin.tar.gz //解压
mv apache-nutch-1.12 nutch //改名
chmod -R 777 nutch/ //权限
cd /bin
./nutch //查看是否安装成功
修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置
300b3d4183f4c2c28ee5ea2943ca03a3.gif
在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。
在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。
爬虫执行完成后,可以通过如下命令来查看结果:
bin/nutch readdb result/crawldb/ -stats
网友评论