美文网首页Python 爬虫专栏我爱编程@IT·互联网
Python爬虫——selenium模拟登陆新浪微博(网页)

Python爬虫——selenium模拟登陆新浪微博(网页)

作者: loading_miracle | 来源:发表于2017-05-10 08:45 被阅读608次

上一篇文章Python爬虫——新浪微博(网页版)中提到cookie过期问题,想了一下可以通过selenium+chrome模拟登陆获取登陆成功后的cookies,然后构造字典返回,这样在主程序进行判断如果抓不到正确的数据,就重新模拟登陆获取新的cookies并返回(个人想法,测试可行)
URL入口+xpath定位
URL:http://weibo.com/login.php

输入框位置

** selenium+chrome**
这里如果没有安装相关的包,可以自行百度解决环境问题,主程序主要使用selenium相关的函数去模拟点击和输入事件,最后获取登录后的cookies,废话不多说,直接上代码供大家参考。
模拟登录Demo

import time
from selenium import webdriver

class COOKIE(object):
    url = 'http://weibo.com/login.php'
    def __init__(self):
        self.browser = webdriver.Chrome()
    def getcookie(self):
        self.browser.get(self.url)
        self.browser.implicitly_wait(15)
        self.browser.find_element_by_xpath('//*[@id="loginname"]').clear()
        self.browser.find_element_by_xpath('//*[@id="loginname"]').send_keys('你的用户名')
        self.browser.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').clear()
        time.sleep(1)
        self.browser.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys('密码')
        time.sleep(1)
        self.browser.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
        cookie_dic={}
        cookies = self.browser.get_cookies()
        self.browser.close()
        for cookie in cookies:
            if cookie.has_key('name') and cookie.has_key('value'):
                cookie_dic[cookie['name'].encode('utf-8')]=cookie['value'].encode('utf-8')
        return cookie_dic

遇到的问题

  • 1.为什么没使用无界面的phantomjs,测试的时候使用的是chrome。并且成功返回了cookies,之后更换phantomjs后,出现找不到填充的位置的问题,之前以为是请求头等问题,添加之后仍然不可行,所以暂时采用chrome。
  • 2.程序中间加了强制等待,这是因为,如果不加这个的话可能出现登录不成功的情况(可能于网速有关系吧),所以最好还是加上,时间自行调整。

selenium使用案例
想对selenium进一步了解的可以自行查相关的资料,然后就是在模拟登录的时候要找到正确URL入口和账户和密码的输入框的位置,这里给一个58同城登录的示例作为参考。

58同城登录界面

很显然我们用工具去抓的时候,给我的位置是第一个密码框的位置,但是这个位置是填充不进去值的,接着看下边同样也是密码输入框,但是display:none(隐藏了),然后我就想如果定位到这个位置能否成功填充密码,经测试果然可以,我们可以更改这个网页元素属性来看一下有怎样的变化。

更改属性后
我们可以看到我讲display的none属性去掉后,主页面多了一个密码框,所以这个才是真正的密码填充框,只不过一开始隐藏了。
总结
selenium模拟登录这块还是要找到正确的URL入口和正确的输入框位置,解决了这些差不多就可以完成模拟登录一个网站。

相关文章

网友评论

  • udhga:self.browser = webdriver.Chrome() 这里不写路径不报错么:ChromeDriver executable needs to be available in the path,博主的selenium的版本是多少的
    udhga:@loading_miracle 好的,谢谢了,我再试试
    loading_miracle:@udhga 不写路径对的话需要在环境变量配置,没有配置还是需要写上的
  • Evtion:模拟登陆新浪微博的时候遇到和博主相同的问题,一直获取不到输入框元素。😂😂😂😂
    loading_miracle: @芒果DB 是的,要最大化
    Evtion:@loading_miracle 已经解决了,是因为新郎微博网站是响应性。用phantomjs没有最大化窗口的时候,登陆框等都是不可见的即display:none,只有最大化窗口,然后显式等待,最后发现可以模拟登录成功
    loading_miracle: @芒果DB 解决了么
  • JaeGwen:更换phantomjs后,出现找不到填充的位置的问题:
    可以试试最大化窗口driver.maximize_window()
    显式等待 wait = WebDriverWait(driver, 5)
    loading_miracle:@JaeGwen 嗯嗯,我晚会儿试试

本文标题:Python爬虫——selenium模拟登陆新浪微博(网页)

本文链接:https://www.haomeiwen.com/subject/ytewtxtx.html