爬虫理论知识

作者: Stranger_I | 来源:发表于2019-01-30 13:16 被阅读0次

爬虫:

平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?

什么是爬虫?

就是一段自动抓取互联网数据的程序或脚本

1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:所有的目标url全部请求完毕,爬虫结束

1.可以爬取数据,写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析(知乎数据冰山专栏)

做爬虫可以用python java php c/c++ switch ... 完成

1.通用爬虫:是搜索引擎的重要组成部分

作用和目的:尽可能全的将互联网上所有的网页下载到
本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(
镜像备份),然后提取检索系统

获取数据的步骤):
   a.获取一些种子url,放入待爬取队列
   b.从待爬取队列中取出url发起请求,将获取的响应结果
   进行处理,之后存入本地,然后将已爬取的url,放入已爬
    取队列
   c.从响应结果中获取外链(url),将url放入待爬取队列中

2.聚焦爬虫

焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：　聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

DNS服务:将域名转换为ip的技术

1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取

本文标题：爬虫理论知识

本文链接：https://www.haomeiwen.com/subject/tyaqsqtx.html