美文网首页
爬虫理论知识

爬虫理论知识

作者: Stranger_I | 来源:发表于2019-01-30 13:16 被阅读0次

爬虫:

平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?

什么是爬虫?

就是一段自动抓取互联网数据的程序或脚本

爬虫最基本的步骤:

1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求

爬虫结束:所有的目标url全部请求完毕,爬虫结束

数据的用途:

1.可以爬取数据,写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析(知乎数据冰山专栏)

做爬虫可以用python java php c/c++ switch ... 完成

爬虫的分类:

1.通用爬虫:是搜索引擎的重要组成部分

作用和目的:尽可能全的将互联网上所有的网页下载到
本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(
镜像备份),然后提取检索系统

获取数据的步骤):
   a.获取一些种子url,放入待爬取队列
   b.从待爬取队列中取出url发起请求,将获取的响应结果
   进行处理,之后存入本地,然后将已爬取的url,放入已爬
    取队列
   c.从响应结果中获取外链(url),将url放入待爬取队列中

2.聚焦爬虫

焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:   聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

DNS服务:将域名转换为ip的技术

搜索引擎获取网站的url:

1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取

相关文章

  • 爬虫理论知识

    什么是爬虫 爬取网页数据的程序 它是一门工具 网页特征 每个网页都有不同的url(统一资源定位符) 网页都由HT...

  • 爬虫理论知识

    什么是爬虫? 就是一段自动抓取互联网数据的程序或脚本 网页的三大特性 1.每个网页都有自己唯一的URL地址(统一资...

  • 爬虫理论知识

    爬虫: 平台或者机构不能够提供我们需要的数据,这时就需要爬虫工程师,根据需求从互联网上抓取数据? 什么是爬虫? 就...

  • Python爬虫理论知识

    基本流程 1.分析网站,寻找目标url 2.分析目标url参数(get/post)(1)get请求参数部分:把?后...

  • 爬虫的理论知识储备

    参考资料:汪海:Python网络爬虫W3School HTML教程《计算机网络第二版》 谢希仁 网络爬虫,是一种按...

  • 爬虫的理论知识概括

    什么是爬虫 就是一段自动抓取互联网数据的程序或脚本 网页的三大特性 1:每一个网页都有自己唯一的URL地址(统一资...

  • 如何构建一个分布式爬虫:理论篇

    前言 本系列文章计划分三个章节进行讲述,分别是理论篇、基础篇和实战篇。理论篇主要为构建分布式爬虫而储备的理论知识,...

  • 第27期思维导图双证班线上课程总结

    线上课程总结分为线上理论知识,收获,实践和目标四个部分。 一、线上理论知识,分为理论知识和学科运用。 理论知识包括...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

网友评论

      本文标题:爬虫理论知识

      本文链接:https://www.haomeiwen.com/subject/tyaqsqtx.html