爬虫

作者: 清酒金杯空对月 | 来源:发表于2019-01-27 10:49 被阅读0次

爬虫:

以上平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?

什么是爬虫?

就是一段自动抓取互联网数据的程序或脚本

爬虫最基本的步骤:

1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:

所有的目标url全部请求完毕,爬虫结束

爬虫的分类(通用爬虫,聚焦爬虫):

通用爬虫:

是搜索引擎的重要组成部分
作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(镜像备份),然后提取检索系统

爬虫的用途

1.搜索引擎
2.咨询新闻网站
3.购物助手(慧慧购物)
4.数据分析与研究积累原始数据资源
5.抢票软件等

获取数据的步骤):

a.获取一些种子url,放入待爬取队列
b.从待爬取队列中取出url发起请求,将获取的响应结果
进行处理,之后存入本地,然后将已爬取的url,放入已爬
取队列
c.从响应结果中获取外链(url),将url放入待爬取队列中

DNS服务:将域名转换为ip的技术

搜索引擎如何获取新网站的url:

1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取

搜索引擎的排名:

1.根据用户的访问量和网站的流量进行的排名
2.竞价排名:根据价钱进行网站的排名

搜索引擎需要遵守robot协议:

是一个规范,网站通过robot协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取
https://www.taobao.com/robots.txt
User-agent:  Baiduspider(搜索引擎爬虫名称)
Allow:  /article (允许爬取的url)
Disallow:  /product/ (不允许爬取的url)

搜索引擎的缺点:

1.只能够获取简单的文件数据,大型的二进制数据(音频,视频)都不能够获取
2.搜索引擎搜索的结果千篇一律,没有办法根据特定的用户,特定的需求获取特定的数据
3.搜索引擎搜索结果99%并没用

由于搜索引擎的缺点,产生了聚焦爬虫

聚焦爬虫:

是面向主题,面向需求的爬虫,只获取跟需求相关的数据

相关文章

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...

  • (了解)通用爬虫和聚焦爬虫--爬虫基础教程(python)(二)

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.我们主要写通用爬虫。 通用爬虫 通...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

网友评论

      本文标题:爬虫

      本文链接:https://www.haomeiwen.com/subject/eajgjqtx.html