美文网首页
2018-12-04

2018-12-04

作者: 浅谈与你 | 来源:发表于2018-12-04 20:58 被阅读0次

    phantomj下载地址

    https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2

    配置driver:下载driver,并放到环境变量目录,驱动的下载地址如下:

    chromehttp://npm.taobao.org/mirrors/chromedriver

    firfox:https://github.com/mozilla/geckodriver/releases

    使用动态方法获取数据后,也可以使用bs4,lxml等方法来截取想要获取的数据。

    此功能为控制浏览器最大化显示# driver.maximize_window()
    保存截图# driver.save_screenshot(baidu.png)
    无视ssl证书# '--ignore-ssl-errors=true',
    是否缓存# '--disk-cache=yes',
    是否加载图片# '--load-images=no'
    设置代理IP# '--proxy=%s' % ip, '--proxy-type=https'

    设置phantomjs请求头:

    
    from selenium.webdriver.common.desired_capabilitiesimport DesiredCapabilities
    
    dcap =dict(*DesiredCapabilities*.PHANTOMJS)
    
    self.driver = webdriver.PhantomJS(service_args=self.service_args,
    
                                      executable_path=config.BROWSER_BIN_PATH,
    
                                      desired_capabilities=self.dcap)
    
    def set_headers(self, source):
    
        self.headers_ext['User-Agent'] =self.select_agent(source)       
    
        self.dcap["phantomjs.page.settings.userAgent"] =self.headers_ext['User-Agent'] 
    
        self.dcap["phantomjs.page.settings.referer"] =self.headers_ext['Referer']   网站来源
    
        self.dcap["phantomjs.page.settings.host"] =self.headers_ext['Host']    请求主机地址
    
        headers 是之前设置的缓存
    

    相关文章

      网友评论

          本文标题:2018-12-04

          本文链接:https://www.haomeiwen.com/subject/ekavcqtx.html