美文网首页
Python爬虫-常用库

Python爬虫-常用库

作者: 坤哥爱卿 | 来源:发表于2019-07-30 18:09 被阅读0次

    首先安装Anaconda软件,这个包含了Python和pip以及很多的第三方库。

    下载地址:https://www.anaconda.com/distribution/

    下面介绍各种第三方库及安装方式:

    1.urllib 和 re (自带库)

    验证方法:

    2.requests (pip安装)

    requests官网:https://2.python-requests.org/en/master/

    3.selenium(pip安装) 和 chromeDriver(HomeBrew安装)---- 有界面浏览器,selenium 自动化测试的

    chromeDriver安装方式:https://www.jianshu.com/p/a9df5135a3a3

    验证方法:

    driver.page_source查看网页源码

    4.phantomjs(搜索安装)----无界面浏览器

    phantomjs下载地址:https://phantomjs.org/download.html

    验证方法:

    5.lxml (pip安装)---- xpass解析方式

    安装方式一:pip install lxml

    安装方式二:

    (1)先去百度lxml pypi 下载下来

    (2)pip install 下载文件的路径

    6.beautifulsoup(pip安装)----网页解析库,依赖于lxml

    验证方法:

    7.pyquery(pip安装) ----网页解析库,语法与jQuery一致

    pyquery官网:https://pythonhosted.org/pyquery/

    验证方法:

    8.pymysql(pip安装)----操作mysql数据库的库

    验证方法:

    9.pymongo (pip安装)---- 操作mongo数据库

    验证方法:

    10.redis(pip安装)---- 用于分布式爬虫,维护一个爬起队列(非关系型)

    验证方法:

    11.flask(pip安装) ---- web库,代理设置

    flask官网:http://docs.jinkan.org/docs/flask/

    验证方法:

    命令行 import flask 验证

    12.django (pip安装)---- Web服务器框架,提供一个完整的后台管理,提供多模板引擎,接口,路由,可以做一个完整的网站,用于分布式爬虫维护

    django官网:https://www.djangoproject.com/

    验证方法:

    import django

    13.jupyter ---- 网页记事本功能,可调试,支持markdown,依赖于ipython

    jupyter官网:https://jupyter.org/

    验证方法:

    跳转:

    可在线编辑,在线编译

    14.splash

    splash下载地址:https://splash.readthedocs.io/en/stable/


    彩蛋:Mac系统下一行命令安装上面的库


    pip3 install requests seleniun beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

    相关文章

      网友评论

          本文标题:Python爬虫-常用库

          本文链接:https://www.haomeiwen.com/subject/mhgnrctx.html