美文网首页
爬虫课程笔记

爬虫课程笔记

作者: wonkey | 来源:发表于2018-07-06 15:31 被阅读0次

 听了老师的爬虫课,挺有收获。爬虫的原理很简单,本质上还是模拟浏览器发送HTTP请求。请求分请求头和请求体,请求头和请求体都由一系列键值对组成,常用的请求头有user-agent,cookie,referer。请求头可看作一系列的标签,标识了请求的信息。如从哪个设备发出的请求,从哪个页面跳转过来的。请求体可以看作请求的正文,需要请求哪些内容。道理很简单,不就用代码模拟浏览器发送请求嘛?况且HTTP请求也是无状态的嘛,浏览器不也是由程序写起来的么,浏览器怎么做,爬虫也怎么做就好啦。但实际操作起来才知道有各种各样的坑。想想开发浏览器的难度可是一点不比堪比操作系统小,遇到复杂的页面想爬取到正确的结果也不是那么容易。

 在成功获得正确请求前,客户端和服务器可能需要经过好几次交互,表现形式之一就是浏览器的跳转,重定向。不停更新请求参数,cookie。有些参数不知道怎么来的,得一点点去找。可能是页面中隐藏,也有可能是js代码生成的,这个需要不断总结,需要经验和耐心。

 很佩服老师一点一点讲得很清楚,没有用session一下子就获取结果。而是禁用了重定向,把每一次请求的参数都清清楚楚的写在了代码中,现在的工具越来越好用了,单纯爬取个简单页面也没啥难度,重要的还是稳定性,效率,数据的正确完整,爬虫的架构。期待后面的课程。

相关文章

  • 爬虫课程笔记

     听了老师的爬虫课,挺有收获。爬虫的原理很简单,本质上还是模拟浏览器发送HTTP请求。请求分请求头和请求体,请求头...

  • 爬虫课程笔记二

    第二次课程通过模拟登录微信,了解了轮询问和长轮询,通过多进程,多线程,协程等方式实现快速的爬虫。 轮询:我...

  • 爬虫学习笔记

    本篇笔记主要记录学习哔站up主:IT私塾的课程《Python爬虫基础5天速成(2021全新合集)Python入门+...

  • Node爬虫相关

    网络爬虫开发 第1章 课程介绍 什么是爬虫 爬虫的意义 课程内容 前置知识 什么是爬虫 可以把互联网比做成一张“大...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • Node.js 笔记四: 简单爬虫

    Node.js 笔记四: 爬虫 Python 笔记七:Requests爬虫技巧讲解了一些requests的技巧。同...

  • Python爬虫进阶-curl的使用

    本笔记是爬虫进阶的第一篇,关于本系列笔记的介绍,请看Python爬虫进阶-前言。 本篇也是爬虫三大环节:数据获取、...

  • Python Web 开发课程来啦~

    在Python爬虫小分队课程开到第三期的时候,我们推出Python Web开发课程。 一、Python爬虫课程进度...

  • 大师兄的Python学习笔记(三十): 爬虫(十一)

    大师兄的Python学习笔记(二十九): 爬虫(十)大师兄的Python学习笔记(三十一): 爬虫(十二) 十一、...

  • 简单爬虫架构

    整理笔记,来自imooc课程 整体结构 爬虫调度端 URL管理器 网页下载器 网页解析器 URL管理器 管理待抓取...

网友评论

      本文标题:爬虫课程笔记

      本文链接:https://www.haomeiwen.com/subject/isqbuftx.html