美文网首页
大数据学习笔记之爬虫系列(2)----爬虫常用库

大数据学习笔记之爬虫系列(2)----爬虫常用库

作者: SofiyaJ | 来源:发表于2018-10-29 21:05 被阅读0次

Python内置库

  • urlib
  • re 有关正则表达式,非python独有

需要通过PIP安装的库

  • requests
  • selenium (需要下载对应浏览器的驱动)

一般写爬虫程序,为了避免时不时有浏览器启动和关闭,我们可以采用无前端页面的phantomjs,其中也需要下载安装对应浏览器的驱动。

  • lxml 用于网页解析

除了pip命令行下载,也可以手动下载将其解压后放入对应的路径。

  • beautifulsoup,按照下面的进行下载,否则会报错。
pip install beautifulsoup4
  • pyquery 和jquery十分相似

关于存储数据的库

  • pysql 关系型数据库
  • pymongo 非关系型数据库
  • redis

往期好文:
大数据学习笔记之爬虫系列(1)----爬虫简介

相关文章

网友评论

      本文标题:大数据学习笔记之爬虫系列(2)----爬虫常用库

      本文链接:https://www.haomeiwen.com/subject/scpitqtx.html