美文网首页
爬虫小结

爬虫小结

作者: 山野过客 | 来源:发表于2018-11-15 19:03 被阅读0次

爬虫是一段自动获取网络数据的程序,用于做搜索引擎等,想做爬虫得实现如下三部

(1).找到目标URL

(2).根据URL发起请求

(3).解析响应结果:

    a).提取目标数据

    b).如何存在新的URL,进一步提取(会执行1-3这个循环)

我们爬虫使用python

爬虫分为两类:

通用爬虫和聚焦爬虫

通用爬虫:通用爬虫是浏览器的重要组成部分,将互联网上所有的网页下载到本地,做了一个镜像备份,提取重要数据(过滤数据,分词,去广告等等)

通用爬虫的缺点:

1.需要遵循robot协议:Robots协议(爬虫协议、机器人协议等)的全称是"网络爬虫排除标准"

2.搜索引擎返回的结果千篇一律没有很好的针对行,不能钩特殊的用户群体返回对应的数据

3.搜索引擎一般情况下获取的是文本信息,处理图像,音频,视频多媒体还是有困难的

聚焦爬虫:是面向主题的爬虫,由需求产生的爬虫,在爬取网页数据的时候,会对网页数据进行一些筛选,保只抓取和需求相关的数据,以后我们更多的就是实现聚焦爬虫

常见状态码:

100~199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。

2xx:表示服务器成功接收请求并已完成整个处理过程。

200(OK 请求成功)

3xx:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、 常用

301: 永久重定向

302:临时重定向(所请求的页面已经临时转移至新的url)

4xx:客户端的请求有错误.

400:错误请求,服务器无法解析请求

401:未授权,没有进行身份验证

403:服务器拒绝访问

404:服务器无法找到被请求的网页

408:请求超时

5xx:服务器端出现错误

500:服务器内部错误

501:服务器不具备完成请求的功能

503:服务器不可用

相关文章

  • 爬虫小结

    大数库时代:数据如何产生: 1.大的公司大的企业:通过用户产生的用户2.大的数据平台:通过收集或者和其他企业或者公...

  • 爬虫小结

    爬虫是一段自动获取网络数据的程序,用于做搜索引擎等,想做爬虫得实现如下三部 (1).找到目标URL (2).根据U...

  • 爬虫小结

    爬虫:网络爬虫机器人,从互联网自动抓取数据的程序 理论上:通过浏览器看到的数据,我们一般都是可以获取到的 爬虫的作...

  • 图片爬虫小结

    前言 本文主要分享在爬站点图片过程中的一些踩坑总结 工具使用的是nodejs,外部依赖只使用了request、re...

  • python爬虫小结

    这两天写了一两个爬虫程序,也逐渐熟悉了爬虫的基本知识。可以很方面地写一两个小程序,为自己服务O(∩_∩)O。比如,...

  • 爬虫知识小结

    总体框架

  • 学习笔记 2018-10-22

    第一单元小结 通用代码框架try - except 网络爬虫引发的问题爬取网页,玩转网页 requests爬取网站...

  • 爬虫学习进度小结

    本周学习内容爬虫,已理解标签的选择。 目前问题: 1对python函数不熟练 2解析索引页获取详情页url,解析详...

  • 11.14爬虫学习小结

    1. HTTP基本原理 相关概念 URI URL HTTPS 2. http请求过程 get和post请求的区别 ...

  • BloomFilter & Hyperloglog 去重 & 统

    去重小结 最近在做爬虫的时候,遇到了去重的问题,关于去重,有很多地方可以做,比如 内存级别,利用 hashmap,...

网友评论

      本文标题:爬虫小结

      本文链接:https://www.haomeiwen.com/subject/zhnyfqtx.html