美文网首页我爱编程
第八章 scrapy进阶

第八章 scrapy进阶

作者: Xia0JinZi | 来源:发表于2018-01-04 11:04 被阅读0次

    scrapy 进阶

    标签(空格分隔): python scrapy selenium


    selenium动态网页与请求

    • 知乎模拟点击
    brower = webdriver.Chrome('E:/spider_tools/chromedriver_win32/chromedriver.exe')
    brower.get('https://www.zhihu.com/#signin')
    brower.find_element_by_css_selector('.qrcode-signin-step1 span.signin-switch-password').click()
    brower.find_element_by_css_selector('.view-signin input[name="account"]').send_keys('13083337152')
    brower.find_element_by_css_selector('.view-signin input[name="password"]').send_keys('jinquan1994')
    brower.find_element_by_css_selector('.view-signin button.sign-button').click()
    brower.quit()
    

    注意:get加载完成才可以进行模拟点击,可以通过添加time.sleep(15)方式,让页面添加完成。

    • 鼠标下拉事件
    brower.execute_script('window.scrollTo(0,document.body.scrollHeight);var lenOfPage = document.body.scrollHeight;return lenOfPage;')
    
    • 不加载图片
    chrom_opt = webdriver.ChromeOptions()
    prefimg = {"profile.managed_default_content_settings.images":2}
    chrom_opt.add_experimental_option('prefs',prefimg)
    
    • phantonjs 无界面式浏览器
    brower = webdriver.PhantomJS(executable_path='E:/spider_tools/phantomjs-2.1.1-windows/bin/phantomjs.exe')
    brower.get('https://www.zhihu.com/#signin')
    
    • telent 链接
    telent ip:端口
    
    • spider 启动暂停
    scrapy crawl lagou -s JOBDIR = job_info/001 # 新的启动
    crtl+c
    

    • 原视频UP主慕课网(聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎)
    • 本篇博客撰写人: XiaoJinZi 个人主页 转载请注明出处
    • 学生能力有限 附上邮箱: 986209501@qq.com 不足以及误处请大佬指责

    相关文章

      网友评论

        本文标题:第八章 scrapy进阶

        本文链接:https://www.haomeiwen.com/subject/sxxrnxtx.html