Python爬虫——selenium模拟登陆新浪微博（网页）

作者: loading_miracle | 来源:发表于2017-05-10 08:45 被阅读608次

Python爬虫——selenium模拟登陆新浪微博（网页）
scrapy笔记(3)-微博模拟登录及抓取微博内容
hexo使用新浪微博图床自动部署
selenium模拟知乎登陆
python爬虫入门之模拟登陆新浪微博
Python爬虫——新浪微博（网页版）
Selenium/Xpath/BeautifulSoup
selenium模拟登录新浪微博
从零开始用Selenium 模拟人工点击
Python网络爬虫之模拟登陆

上一篇文章Python爬虫——新浪微博（网页版）中提到cookie过期问题，想了一下可以通过selenium+chrome模拟登陆获取登陆成功后的cookies，然后构造字典返回，这样在主程序进行判断如果抓不到正确的数据，就重新模拟登陆获取新的cookies并返回（个人想法，测试可行）
URL入口+xpath定位
URL：http://weibo.com/login.php

输入框位置

** selenium+chrome**
这里如果没有安装相关的包，可以自行百度解决环境问题，主程序主要使用selenium相关的函数去模拟点击和输入事件，最后获取登录后的cookies，废话不多说，直接上代码供大家参考。
模拟登录Demo

import time
from selenium import webdriver

class COOKIE(object):
    url = 'http://weibo.com/login.php'
    def __init__(self):
        self.browser = webdriver.Chrome()
    def getcookie(self):
        self.browser.get(self.url)
        self.browser.implicitly_wait(15)
        self.browser.find_element_by_xpath('//*[@id="loginname"]').clear()
        self.browser.find_element_by_xpath('//*[@id="loginname"]').send_keys('你的用户名')
        self.browser.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').clear()
        time.sleep(1)
        self.browser.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys('密码')
        time.sleep(1)
        self.browser.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
        cookie_dic={}
        cookies = self.browser.get_cookies()
        self.browser.close()
        for cookie in cookies:
            if cookie.has_key('name') and cookie.has_key('value'):
                cookie_dic[cookie['name'].encode('utf-8')]=cookie['value'].encode('utf-8')
        return cookie_dic

遇到的问题

1.为什么没使用无界面的phantomjs，测试的时候使用的是chrome。并且成功返回了cookies，之后更换phantomjs后，出现找不到填充的位置的问题，之前以为是请求头等问题，添加之后仍然不可行，所以暂时采用chrome。
2.程序中间加了强制等待，这是因为，如果不加这个的话可能出现登录不成功的情况（可能于网速有关系吧），所以最好还是加上，时间自行调整。

selenium使用案例
想对selenium进一步了解的可以自行查相关的资料，然后就是在模拟登录的时候要找到正确URL入口和账户和密码的输入框的位置，这里给一个58同城登录的示例作为参考。

58同城登录界面

很显然我们用工具去抓的时候，给我的位置是第一个密码框的位置，但是这个位置是填充不进去值的，接着看下边同样也是密码输入框，但是display：none（隐藏了），然后我就想如果定位到这个位置能否成功填充密码，经测试果然可以，我们可以更改这个网页元素属性来看一下有怎样的变化。

更改属性后
我们可以看到我讲display的none属性去掉后，主页面多了一个密码框，所以这个才是真正的密码填充框，只不过一开始隐藏了。
总结
selenium模拟登录这块还是要找到正确的URL入口和正确的输入框位置，解决了这些差不多就可以完成模拟登录一个网站。

Python爬虫——selenium模拟登陆新浪微博（网页）
上一篇文章Python爬虫——新浪微博（网页版）中提到cookie过期问题，想了一下可以通过selenium+ch...
scrapy笔记(3)-微博模拟登录及抓取微博内容
参考阅读基于python的新浪微博模拟登陆Python模拟登录新浪微薄（使用RSA加密方式和Cookies文件新...
hexo使用新浪微博图床自动部署
使用新浪微博图床请先参考之前两篇文章: python模拟微博登陆使用新浪微博图床自动部署涉及到以下文章: Li...
selenium模拟知乎登陆
1、安装selenium python我们可以在网页上模拟一些操作，比如模拟登陆。直接在pycharm安装sele...
python爬虫入门之模拟登陆新浪微博
很多网页浏览都需要首先登陆，比如说新浪微博。当然，这里有一个小技巧，用手机3G版登陆。电脑版会有各种加密，动态加载...
Python爬虫——新浪微博（网页版）
最近事情比较多，所以从上周就开始写的新浪微博爬虫一直拖到了现在，不过不得不说新浪微博的反扒，我只想说我真的服气了。...
Selenium/Xpath/BeautifulSoup
一： selenium库 -- 模拟用户登陆，并解析网页应用现状： selenium模拟浏览器进行数据抓取无疑是...
selenium模拟登录新浪微博
刚学python不久，爬虫更是一个弱鸡，基本上一个小白，几周前侥幸在一个小公司得到一个数据分析的实习工作（真想感谢...
从零开始用Selenium 模拟人工点击
从零开始用Selenium 模拟人工点击标签（空格分隔）： Selenium 爬虫 python chromed...
Python网络爬虫之模拟登陆
为什么要模拟登陆？ Python网络爬虫应用十分广泛，但是有些网页需要用户登陆后才能获取到信息，所以我们的爬虫需要...

网友评论

udhga:self.browser = webdriver.Chrome() 这里不写路径不报错么：ChromeDriver executable needs to be available in the path，博主的selenium的版本是多少的

udhga:@loading_miracle 好的，谢谢了，我再试试

loading_miracle:@udhga 不写路径对的话需要在环境变量配置，没有配置还是需要写上的

Evtion:模拟登陆新浪微博的时候遇到和博主相同的问题，一直获取不到输入框元素。😂😂😂😂

loading_miracle: @芒果DB 是的，要最大化

Evtion:@loading_miracle 已经解决了，是因为新郎微博网站是响应性。用phantomjs没有最大化窗口的时候，登陆框等都是不可见的即display:none，只有最大化窗口，然后显式等待，最后发现可以模拟登录成功

loading_miracle: @芒果DB 解决了么

JaeGwen:更换phantomjs后，出现找不到填充的位置的问题:
可以试试最大化窗口driver.maximize_window()
显式等待 wait = WebDriverWait(driver, 5)

loading_miracle:@JaeGwen 嗯嗯，我晚会儿试试

udhga:self.browser = webdriver.Chrome() 这里不写路径不报错么：ChromeDriver executable needs to be available in the path，博主的selenium的版本是多少的
udhga:@loading_miracle 好的，谢谢了，我再试试
loading_miracle:@udhga 不写路径对的话需要在环境变量配置，没有配置还是需要写上的
Evtion:模拟登陆新浪微博的时候遇到和博主相同的问题，一直获取不到输入框元素。😂😂😂😂
loading_miracle: @芒果DB 是的，要最大化
Evtion:@loading_miracle 已经解决了，是因为新郎微博网站是响应性。用phantomjs没有最大化窗口的时候，登陆框等都是不可见的即display:none，只有最大化窗口，然后显式等待，最后发现可以模拟登录成功
loading_miracle: @芒果DB 解决了么
JaeGwen:更换phantomjs后，出现找不到填充的位置的问题:
可以试试最大化窗口driver.maximize_window()
显式等待 wait = WebDriverWait(driver, 5)
loading_miracle:@JaeGwen 嗯嗯，我晚会儿试试

Python爬虫——selenium模拟登陆新浪微博（网页）

相关文章

Python爬虫——selenium模拟登陆新浪微博（网页）

scrapy笔记(3)-微博模拟登录及抓取微博内容

hexo使用新浪微博图床自动部署

selenium模拟知乎登陆

python爬虫入门之模拟登陆新浪微博

Python爬虫——新浪微博（网页版）

Selenium/Xpath/BeautifulSoup

selenium模拟登录新浪微博

从零开始用Selenium 模拟人工点击

Python网络爬虫之模拟登陆

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python 爬虫专栏

我爱编程

@IT·互联网

爬虫专题

Python爬虫作业

大数据爬虫Python AI Sql

python爬虫日记本

Python3自学爬虫实战