爬虫

作者: 清酒金杯空对月 | 来源:发表于2019-01-27 10:49 被阅读0次

11.20-11.26
爬虫入门基础
01-认识爬虫
爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫
（了解）通用爬虫和聚焦爬虫--爬虫基础教程（python）（二）
Python 网络爬虫（一）
7.爬虫概述
1-基本概念
认识爬虫
爬虫入门

爬虫:

以上平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?

什么是爬虫?

就是一段自动抓取互联网数据的程序或脚本

爬虫最基本的步骤:

1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:

所有的目标url全部请求完毕,爬虫结束

爬虫的分类(通用爬虫,聚焦爬虫):

通用爬虫:

是搜索引擎的重要组成部分
作用和目的:尽可能全的将互联网上所有的网页下载到本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(镜像备份),然后提取检索系统

爬虫的用途

1.搜索引擎
2.咨询新闻网站
3.购物助手（慧慧购物）
4.数据分析与研究积累原始数据资源
5.抢票软件等

获取数据的步骤):

a.获取一些种子url,放入待爬取队列
b.从待爬取队列中取出url发起请求,将获取的响应结果
进行处理,之后存入本地,然后将已爬取的url,放入已爬
取队列
c.从响应结果中获取外链(url),将url放入待爬取队列中

DNS服务:将域名转换为ip的技术

搜索引擎如何获取新网站的url:

1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取

搜索引擎的排名:

1.根据用户的访问量和网站的流量进行的排名
2.竞价排名:根据价钱进行网站的排名

搜索引擎需要遵守robot协议:

是一个规范,网站通过robot协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取
https://www.taobao.com/robots.txt
User-agent:  Baiduspider(搜索引擎爬虫名称)
Allow:  /article (允许爬取的url)
Disallow:  /product/ (不允许爬取的url)

搜索引擎的缺点:

1.只能够获取简单的文件数据,大型的二进制数据(音频,视频)都不能够获取
2.搜索引擎搜索的结果千篇一律,没有办法根据特定的用户,特定的需求获取特定的数据
3.搜索引擎搜索结果99%并没用

由于搜索引擎的缺点,产生了聚焦爬虫

聚焦爬虫:

是面向主题,面向需求的爬虫,只获取跟需求相关的数据

网友评论

本文标题：爬虫

本文链接：https://www.haomeiwen.com/subject/eajgjqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫

爬虫:

什么是爬虫?

爬虫最基本的步骤:

爬虫结束:

爬虫的分类(通用爬虫,聚焦爬虫):

通用爬虫:

爬虫的用途

获取数据的步骤):

DNS服务:将域名转换为ip的技术

搜索引擎如何获取新网站的url:

搜索引擎的排名:

搜索引擎需要遵守robot协议:

搜索引擎的缺点:

聚焦爬虫:

相关文章

11.20-11.26

爬虫入门基础

01-认识爬虫

爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

（了解）通用爬虫和聚焦爬虫--爬虫基础教程（python）（二）

Python 网络爬虫（一）

7.爬虫概述

1-基本概念

认识爬虫

爬虫入门

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读