美文网首页
爬虫-nutch

爬虫-nutch

作者: 码哥说 | 来源:发表于2019-03-22 17:39 被阅读0次

背景

如今这个大数据的时代,爬虫 屡见不鲜,提起爬虫大家第一反应肯定是python,诚然python有优势,但是其实java干这事也不赖,今天博主就来实践一下,用大名鼎鼎的Nutch来实现一个爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

安装

博主使用centos7,所以这里只介绍centos7的安装方法

  1. JDK安装
//linux一般默认安装opensdk需要先卸载:
java -version
rpm -qa | grep java
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
cd /usr
mkdir java
//下载jdk 1.7 gz包
//www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
//xshell传过去
tar -zxvf xxxxxxxx.gz  //解压
vi /etc/profile       //配置环境变量
export      JAVA_HOME=/usr/java/jdk1.7.67_10
export     CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export     PATH=$PATH:$JAVA_HOME/bin
source /etc/profile   //使配置生效
java -version   //查看是否安装成功
  1. tomcat安装
//下载tomcat.apache.org/download-70.cgi
xshell传到/usr目录下
tar -zxvf apache-tomcat-7.0.70.tar.gz  //解压
mv apache-tomcat-7.0.70 tomcat   //改名
rm -rf apache-tomcat-7.0.70.tar.gz  //删包
chomod -R 777 tomcat           //权限
cd tomcat/bin
./startup.sh                        //执行
localhost:8080 查看是否安装成功
  1. nutch1.12安装
//下载http://nutch.apache.org/downloads.html     Apache Nutch 1.12 (bin.tar.gz)
xshell传到/usr目录下
tar -zxvf apache-nutch-1.12-bin.tar.gz   //解压
mv apache-nutch-1.12 nutch  //改名
chmod -R 777 nutch/   //权限
cd /bin
./nutch    //查看是否安装成功

修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置


300b3d4183f4c2c28ee5ea2943ca03a3.gif

在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。
在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。
爬虫执行完成后,可以通过如下命令来查看结果:

bin/nutch readdb result/crawldb/ -stats

相关文章

  • WebMagic学习(一)之Hello world

    Java爬虫项目简介 大型的: Nutch apache/nutch · GitHubapache下的开源爬虫程序...

  • 爬虫-nutch

    背景 如今这个大数据的时代,爬虫 屡见不鲜,提起爬虫大家第一反应肯定是python,诚然python有优势,但是其...

  • 使用nutch搭建类似百度/谷歌的搜索引擎

    Nutch是基于Lucene实现的搜索引擎。包括全文搜索和Web爬虫。Lucene为Nutch提供了文本索引和搜索...

  • ubuntu15.10下nutch2.2.1+hbase1.1.

    前言 这篇博客是建立在上一篇 ubuntu15.10下nutch2.2.1+mysql搭建爬虫平台 基础上的。劝懵...

  • 使用手册

    一、Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫,不同于Nutch这样的面向搜索引...

  • Nutch Notes

    熟悉Nutch

  • 大数据(1):Hadoop 搭建

    一、什么是 Hadoop Hadoop 起源于 Apache Nutch 项目,始于 2002 年。Nutch 的...

  • hadoop初体验

    hadoop hadoop起源于一个开源的项目nutch,主要是做通用爬虫的,遇到两个问题,一个是数据量太大,没法...

  • 献给初学大数据的程序猿!

    Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索...

  • 从0到1完成nutch分布式爬虫项目实战

    今天小编给大家分享的是一个从0开始到完成一个nutch分布式爬虫的实战项目,喜欢的同学可以把本文分享出去,希望对大...

网友评论

      本文标题:爬虫-nutch

      本文链接:https://www.haomeiwen.com/subject/miwfmqtx.html