美文网首页
2.模块简介

2.模块简介

作者: 学飞的小鸡 | 来源:发表于2018-10-31 20:48 被阅读0次

其实学习爬虫也挺简单,主要就是三个步骤

1.抓取网页

2.分析网页
3.保存数据


抓取网页
urllib库
urllib库下主要分成四个模块
1.request 模拟发送请求
2.error 异常处理模块
3.parse 处理URL(拆分,解析,合并)
4.robotparser 识别robot.txt文件,判断网页是否可爬


request模块

  1. urlopen()方法(默认GET):
    常用参数列表:url,data(如果传递该参数,则用POST方法在表单中传递),timeout
  2. Request 构造复杂的请求对象
    常用参数列表:url,data,headers={ },请求方的host/IP,请求是否无法验证,method
    还可以用add_header()方法添加请求头
  3. 高级方法(涉及到验证,cookies,代理等问题)
    基本思路 创建对象 ——> 创建句柄(handler)——> 创建opener

error模块

  1. URLError
    所有异常类的基类,能够处理所有request模块产生的异常
    属性:reason
  2. HTTPError
    URLError的子类,专门用于处理HTTP请求错误
    属性:code reason headers

parse模块
urlparse() <——> urlunparse () 协议://域名/路径;参数?查询条件#锚点
urlsplit() <——> urlunsplit() 同上,不解析参数部分
urljoin()拼合两个url
urlencode() 接收字典参数,传递给url参数字段
parse_qs() 把GET请求参数转化为字典
parse_qsl() 把GET请求参数转化为元组的列表
quote() <——> unquote() 中文字符与url编码格式转化


robotparser模块
判断爬虫和搜索引擎哪些页面可抓取(不可抓取) robot.txt
RobotFileParser对象方法:
1.set_url() 也可在创建对象时初始化url
2.read() 读取robot.txt文件,必须调用
3.parse() 解析robot.txt文件
4.can_fetch() 参数:User-agent,url 是否可以抓取 True/False
5.mtime() 上次抓取和分析robot.txt的时间
6.modified() 更新抓取和分析robot.txt的时间

相关文章

  • 2.模块简介

    其实学习爬虫也挺简单,主要就是三个步骤 1.抓取网页 2.分析网页3.保存数据 抓取网页urllib库urllib...

  • 2. node的模块简介

    1. CommonJs规范 CommonJs对模块模块的定义非常简单,主要分为引用、模块定义和模块标识3个部分。 ...

  • 存稿

    2.模块简介 yml 中 debug=true

  • Linux设备驱动程序学习----目录

    目录 设备驱动程序简介 1.设备驱动程序简介 构造和运行模块 2.内核模块和应用程序的对比 3.模块编译和装载 4...

  • 2-2 什么是模块打包工具

    1. 简介 介绍模块打包工具 2. 什么是模块 关于模块和模块化,百度百科有一段引用自《Java应用架构设计:模块...

  • 网站开发之AngularJS篇

    1.简介 2. 使用 2.1 基础 表达式 {{ expression }} 指令 模块 控制器 Scope ...

  • 模块-2.使用模块

    转自廖雪峰老师官方网站 Python本身就内置了很多非常有用的模块,只要安装完毕,这些模块就可以立刻使用。 我们以...

  • GEE学习笔记 二

    GEE工作空间简介 1. 工作空间预览 2. 各个按钮模块简介 3. 运行简单例子 访问GEE要科学上网!!! 工...

  • 关于模块,继承,依赖范围的测试(compile,test,pro

    内容简介 1.测试目的2.父子模块间的依赖3.普通项目或模块间的依赖4.总结 测试目的 compile,test,...

  • 第三章 依赖倒转原则(Dependence Inversion

    1.简介 高层模块不应该依赖底层模块。两个都应该依赖抽象。 抽象不应该依赖细节。细节应该依赖抽象。 2.特征 针对...

网友评论

      本文标题:2.模块简介

      本文链接:https://www.haomeiwen.com/subject/evjztqtx.html