美文网首页生活不易 我用pythonpython爬虫
python爬虫自学好长时间,如何检测自己是否已经入门?

python爬虫自学好长时间,如何检测自己是否已经入门?

作者: 89078c4ec2fb | 来源:发表于2018-07-06 15:25 被阅读10次

    一、爬虫

    若互联网是一张大的蜘蛛网,数据就存放在蜘蛛网的各个节点,那么爬虫就是一只小蜘蛛,

    沿着网络(蜘蛛网)抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。

    二、爬虫的基本流程

    获取网络数据的方式有两种:

    浏览器提交请求(你在浏览器输入框输入数据然后查找的过程)--->下载网页代码--->解析成页面

    模拟浏览器发送请求(获取网页代码)->提取对我们有用的数据->存放在数据库或者文件中

    爬虫要做的就是第二种方式

    1、发起请求

    利用http库向目标网站发起请求,就是发送一个Request请求,Request模块包含:请求头、请求体等 ,有不能执行JS 和CSS 代码等缺点。小编推荐一个学python的学习裙,【六九九+七四九+八五二】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

    2、获取响应内容

    当服务器正常响应,就会得到一个Response(返回),Response包括:html,图片,json,视频等

    3、解析内容

    解析html数据:正则表达式(RE模块),第三方解析库pyquery,Beautifulsoup等

    解析json数据:json模块

    解析二进制数据:用wb的方式写入文件

    4、保存数据

    数据库(MySQL,Redis,Mongdb)

    文件

    import re

    import urllib

    import urllib.request

    from collections import deque

    三、http协议 请求与响应

    Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)

    四、 request

    1、请求方式:

    常见的请求方式:GET / POST

    网页的加载过程:

    3、请求头

    一般做爬虫都会加请求头

    请求头需要注意的参数:

    4、请求体

    五、 响应Response

    1、响应状态码

    2、respone header

    响应头需要注意的参数:

    3、preview就是网页源代码

    六、总结

    Python爬虫流程:

    爬取--->解析--->存储

    那么怎样的案例最好证明是否入门呢?请看下面示例!小编推荐一个学python的学习裙,【六九九+七四九+八五二】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

    这个Python爬虫案例非常简单,也非常有证明力,你没学肯定看不懂,然而你只不过是个偶尔看了两个教程,那么你也未必看得懂。

    相关文章

      网友评论

        本文标题:python爬虫自学好长时间,如何检测自己是否已经入门?

        本文链接:https://www.haomeiwen.com/subject/anfbuftx.html