美文网首页python开发网络爬虫程序员
Python爬虫模拟登录的黑魔法

Python爬虫模拟登录的黑魔法

作者: 王独立 | 来源:发表于2017-03-29 11:34 被阅读4085次

    今天用 requests + BeautifulSoup 抓取 aliexpress 的时候, 在模拟登录时候出现了很多问题, 提交数据时会对密码等一些字段加密, 而且提交一大堆不知名的字段, 大概有二十多项。 看到那么多字段, 整个人就不好了, 作为一个懒人, 准备绕过这个坑。

    大概思路是这样, 通过 selenium 打开浏览器, 模拟登录。 获取cookies ,并将cookies以文件的形式保存到本地。 当我们使用requests打开页面的时候就可以用本地的cookies。 因为 通过selenium打开浏览器的方式登陆没有那么多限制, 只需要模拟登录流程( 输入帐号密码, 点击登录即可登陆)。 而且selenium可以模拟各种浏览器, 亦可以在命令行下实现浏览器功能。

    1: 通过selenium 登录

    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    
    def login(username, password browser=None):
        browser.get("https://login.example.com/")
    
        pwd_btn = browser.find_element_by_name("password")
        act_btn = browser.find_element_by_name("loginId")
        submit_btn = browser.find_element_by_name("submit-btn")  
    
        act_but.send_keys(username)
        pwd_btn.send_keys(password)
        submint_btn.send_keys(Keys.ENTER)
    
        return browser
    
    

    2: 保存Cookie

    通过seleum 模拟登陆, 然后将cookie打包保存到本地

    • 将获取的cookies 存放在变量cookies中
    import requests
    
    request = requests.Session()
    headers = {
            "User-Agent":
                "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 "
                "(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36"}
    request.headers.update(headers)
    cookies = browser.get_cookies()
    
    • cookie保存在本地
    
    # save the current cookies as a python object using pickle 
    
    import selenium.webdriver 
    import pickle
    
    pickle.dump( cookies , open("cookies.ini","wb"))
    
    • 我们可以用同样的方法将cookies重新载入
    # add them back:
    browser = selenium.webdriver.Firefox()
    browser.get("http://www.example.com")
    cookies = pickle.load(open("cookies.pkl", "rb"))
    for cookie in cookies: 
         browser.add_cookie(cookie)
    

    3: 使用本地的cookie

    import pickleimport selenium.webdriver 
    import pickle
    import requests
    
    cookies = pickle.load(open("cookies.pkl", "rb"))
    request = requests.Session()
    headers = {
            "User-Agent":
                "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 "
                "(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36"}
    request.headers.update(headers)
    
    
    for cookie in cookies:
        request.cookies.set(cookie['name'], cookie['value'])
    
    # 加载cookies后登录网站
    request.get("www.example.com")
    
    

    完整的例子

    
    import pickle
    import requests
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    
    def setup():
        browser = webdriver.Firefox()
        return browser
    
    def login(username, password browser=None):
        browser.get("https://login.example.com/")
    
        pwd_btn = browser.find_element_by_name("password")
        act_btn = browser.find_element_by_name("loginId")
        submit_btn = browser.find_element_by_name("submit-btn")  
    
        act_but.send_keys(username)
        pwd_btn.send_keys(password)
        submint_btn.send_keys(Keys.ENTER)
    
        return browser
    
    def set_sessions(browser):
        request = requests.Session()
        headers = {
            "User-Agent":
                "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 "
                "(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36"
        }
        request.headers.update(headers)
        cookies = browser.get_cookies()
        for cookie in cookies:
            request.cookies.set(cookie['name'], cookie['value'])
    
        return request
    
    
    if __name__ == "__main__":
        browser = login("textusername", "tespassword", setup())
        rq = set_sessiond(browser)
        re.get("http://www.example.com")
    
    

    友情提示

    由于selenium 下的phantomJS在使用过程中出现了不知原因的各种坑。 所以在Python中我们可以用下面的方法,在命令行打开Chrome、FireFox。

    from pyvirtualdisplay import Display
    from selenium import webdriver
    
    display = Display(visible=0, size=(1024, 768))
    display.start()
    chromedriver = "/root/project/driver/chromedriver"
    os.environ["webdriver.chrome.driver"] = chromedriver
    browser = webdriver.Chrome(chromedriver)
    

    相关文章

      网友评论

      • 678cf7dfeffa:在查找browser.find_element_by_name('password')因为,登陆界面属于iframe,是一个嵌入式界面,不是原界面,所以会出现no element的情况,这里需要先定为iframe,再进行下一步

      本文标题:Python爬虫模拟登录的黑魔法

      本文链接:https://www.haomeiwen.com/subject/rcneettx.html