美文网首页
请求库安装

请求库安装

作者: 飘乐云 | 来源:发表于2021-03-17 23:17 被阅读0次

    爬虫需要安装第三方库,requests、Selenium

    (以下均只展示Windows系统下的操作)

    1. 安装requests

    pip install requests

    requests 一个阻塞式HTTP请求库。

    2. 安装Selenium

    pip install selenium

    Selenium 是一个自动化测试工具

    (1) 官网下载ChromeDriver: ChromeDriver

    随后再在程序中测试。执行如下Python 代码:

    from selenium import webdriver

    browser = webdriver.Chrome()

    运行后,出现一个空白的Chrome 浏览器

    (2) Geckodriver安装:geckodriver

    随后再在程序中测试。执行如下Python 代码:

    from selenium import webdriver

    browser = webdriver.Firefox()

    运行后,出现一个空白的Firefox 浏览器

    3.安装PhantomJS

    PhantomJS 是一个无界面的、可脚本编程的Web Kit 浏览器引擎,它原生支持多种Web 标准: DOM操作、css 选择器、JSON 、Canvas 以及SVG 。

    在Selenium 中使用的话,我们只需要将Chrome 切换为PhantomJS 即可:

    from selenium import webdriver

    browser = webdriver. PhantomJS()

    browser.get("https://www.baidu.com")

    print(browser.current_url)

    4.安装aiohttp

    pip install aiohttp


    Robots协议:规定了网站哪些数据不可以别爬虫。

    查看网站的robots协议,如淘宝:

    https://www.taobo.com/robots.txt

    规定了不可以爬的数据,爬了可能要承担法律风险,可以“防君子不防小人”

    相关文章

      网友评论

          本文标题:请求库安装

          本文链接:https://www.haomeiwen.com/subject/rxoecltx.html