美文网首页
Datawhale 爬虫学习笔记3

Datawhale 爬虫学习笔记3

作者: 小新_XX | 来源:发表于2019-08-10 20:47 被阅读0次

3.1 安装selenium并学习

1. 什么是selenium(抄自百度百科):

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。

2. 使用selenium模拟登陆163邮箱。

登录 163邮箱代码:

from selenium import webdriver
import time
browser = webdriver.Chrome()
url = 'http://mail.163.com'
browser.get(url)
time.sleep(3)
browser.maximize_window()
time.sleep(5)
switch_login = browser.find_element_by_id('lbNormal')
switch_login.click()
time.sleep(5)
browser.switch_to.frame(0)    
time.sleep(5)  
email = browser.find_element_by_name('email')
email.send_keys('********')
password = browser.find_element_by_name('password')
password.send_keys('********')
login_em = browser.find_element_by_id('dologin')
login_em.click()
  • Tips1: 在browser = webdriver.Chrome()这一步时会报错:

WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see...

这是因为chrome的路径里没有对应的driver导致的. 解决办法如下 :(参考此blog)
(1) 确定chrome的版本号:chrome右上角三个点 -> 帮助(help) -> 关于chrome(about chrome)
(2) 在http://chromedriver.storage.googleapis.com/index.html上下载对应版本的chrome driver. 如果没有对应你自己的chrome版本的driver, 则应该先讲chrome升级到最新版本,再下载driver. ubuntu下更新chrome的方法如下:

wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome*
sudo apt-get install -f

(3) 解压下载好的chromedrive, 并将其放到chrome的路径中.我使用Ubuntu 16.04版本, 路径位于/usr/local/bin

解决好这个bug后,下面就开始使用selenium来控制登录chrome了.

  • Tips2: 代码中switch_login变量是用来切换二维码登录和账号密码登录.由于163邮箱首页默认显示的是二维码登录,因此需要控制浏览器点击一下"账号密码登录"键来切换.
  1. 参考资料:https://blog.csdn.net/weixin_42937385/article/details/88150379

3.2 学习IP相关知识

  1. 学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。
    在使用爬虫爬取网站时,很多网站都会有反爬措施,其中最常见的就是封IP, 即禁止某个特定的IP访问该网站.应对封IP问题,主要有以下解决方案:
  • 修改请求头,模拟浏览器访问
  • 轮换采用代理IP
  • 设置访问时间间隔
  1. 抓取西刺代理,并构建自己的代理池。

  2. 西刺直通点:https://www.xicidaili.com/

  3. 参考资料:https://blog.csdn.net/weixin_43720396/article/details/88218204

相关文章

网友评论

      本文标题:Datawhale 爬虫学习笔记3

      本文链接:https://www.haomeiwen.com/subject/kkorjctx.html