python 爬虫

作者: 志明S | 来源:发表于2017-02-08 15:35 被阅读225次

    最近爬取天眼查的企业数据,天眼查的页面用的js技术,所以用requests已经不能爬了,所以想了两种办法

    • 1.用selenium+Phantomjs模拟浏览器
      用这种方法,成功的爬到了想要的数据,缺陷就是爬取速度慢,平均爬一条数据几十秒,下边是代码
    dcap = dict(DesiredCapabilities.PHANTOMJS)
        dcap["phantomjs.page.settings.userAgent"] = (
            "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Mobile Safari/537.36"
        )
    
        driver = webdriver.PhantomJS(desired_capabilities=dcap)
        driver.get(url)
        #print (driver.page_source)
        soup = BeautifulSoup(driver.page_source, 'lxml')
        driver.quit()
    
    一开始爬取页面不全,后边添加UA后,可以了。
    • 2.直接请求json来爬取
      完全模拟headers,还是502,后经查询,是cookies里边的token和_utm动态生成,现在还在研究怎么破解。

    相关文章

      网友评论

        本文标题:python 爬虫

        本文链接:https://www.haomeiwen.com/subject/xravittx.html