爬虫需要安装第三方库,requests、Selenium
(以下均只展示Windows系统下的操作)
1. 安装requests
pip install requests
requests 一个阻塞式HTTP请求库。
2. 安装Selenium
pip install selenium
Selenium 是一个自动化测试工具
(1) 官网下载ChromeDriver: ChromeDriver
随后再在程序中测试。执行如下Python 代码:
from selenium import webdriver
browser = webdriver.Chrome()
运行后,出现一个空白的Chrome 浏览器
(2) Geckodriver安装:geckodriver
随后再在程序中测试。执行如下Python 代码:
from selenium import webdriver
browser = webdriver.Firefox()
运行后,出现一个空白的Firefox 浏览器
3.安装PhantomJS
PhantomJS 是一个无界面的、可脚本编程的Web Kit 浏览器引擎,它原生支持多种Web 标准: DOM操作、css 选择器、JSON 、Canvas 以及SVG 。
在Selenium 中使用的话,我们只需要将Chrome 切换为PhantomJS 即可:
from selenium import webdriver
browser = webdriver. PhantomJS()
browser.get("https://www.baidu.com")
print(browser.current_url)
4.安装aiohttp
pip install aiohttp
Robots协议:规定了网站哪些数据不可以别爬虫。
查看网站的robots协议,如淘宝:
https://www.taobo.com/robots.txt
规定了不可以爬的数据,爬了可能要承担法律风险,可以“防君子不防小人”
网友评论