美文网首页我爱编程
第八章 scrapy进阶

第八章 scrapy进阶

作者: Xia0JinZi | 来源:发表于2018-01-04 11:04 被阅读0次

scrapy 进阶

标签(空格分隔): python scrapy selenium


selenium动态网页与请求

  • 知乎模拟点击
brower = webdriver.Chrome('E:/spider_tools/chromedriver_win32/chromedriver.exe')
brower.get('https://www.zhihu.com/#signin')
brower.find_element_by_css_selector('.qrcode-signin-step1 span.signin-switch-password').click()
brower.find_element_by_css_selector('.view-signin input[name="account"]').send_keys('13083337152')
brower.find_element_by_css_selector('.view-signin input[name="password"]').send_keys('jinquan1994')
brower.find_element_by_css_selector('.view-signin button.sign-button').click()
brower.quit()

注意:get加载完成才可以进行模拟点击,可以通过添加time.sleep(15)方式,让页面添加完成。

  • 鼠标下拉事件
brower.execute_script('window.scrollTo(0,document.body.scrollHeight);var lenOfPage = document.body.scrollHeight;return lenOfPage;')
  • 不加载图片
chrom_opt = webdriver.ChromeOptions()
prefimg = {"profile.managed_default_content_settings.images":2}
chrom_opt.add_experimental_option('prefs',prefimg)
  • phantonjs 无界面式浏览器
brower = webdriver.PhantomJS(executable_path='E:/spider_tools/phantomjs-2.1.1-windows/bin/phantomjs.exe')
brower.get('https://www.zhihu.com/#signin')
  • telent 链接
telent ip:端口
  • spider 启动暂停
scrapy crawl lagou -s JOBDIR = job_info/001 # 新的启动
crtl+c

  • 原视频UP主慕课网(聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎)
  • 本篇博客撰写人: XiaoJinZi 个人主页 转载请注明出处
  • 学生能力有限 附上邮箱: 986209501@qq.com 不足以及误处请大佬指责

相关文章

  • 第八章 scrapy进阶

    scrapy 进阶 标签(空格分隔): python scrapy selenium selenium动态网页与请...

  • scrapy——进阶

    一:前言 经过前面的scrapy入门基础后现在我们需要更进一步,怎么样把我们采集到的数据进行处理然后存储到数据库里...

  • 2018-08-12

    Scrapy学习 《精通Scrapy网络爬虫》第八章--仅作为本人学习笔记,如有侵权,请私信我删除 1、项目需求 ...

  • 爬虫就业冲刺20180818

    一、教学内容 1、使用scrapy实现之前的音乐爬虫 教学内容: 复习之前的音乐爬虫项目 scrapy使用进阶 使...

  • 第八章 使用诊断报告 - 进阶资讯

    第八章 使用诊断报告 - 进阶资讯 进阶资讯 高级信息包括以下几类: irisstat Snapshot #1 显...

  • scrapy学习

    经过了上周的简单的爬虫实例介绍,现在进阶了scrapy框架的学习,减少了大量编写代码的过程,接下来介绍scrapy...

  • scrapy 进阶使用

    前段时间我写了一篇《scrapy快速入门》,简单介绍了一点scrapy的知识。最近我的搬瓦工让墙了,而且我又学了一...

  • scrapy 使用中间件

    处理js渲染的内容 参考 【爬虫进阶-JS自动渲染】Scrapy_splash组件的使用https://blog....

  • 南京链家爬虫系列文章(二)——scrapy篇

    scrapy的介绍百度那里一堆的资料,此处不再赘述,我主要参考崔庆才的文章小白进阶之Scrapy第一篇,我的工程路...

  • 《python分布式爬虫打造搜索引擎》(下)----学习笔记

    第八章 scrapy知乎问答网站爬取 8.1 session与cookie 首先要理解session和cookie...

网友评论

    本文标题:第八章 scrapy进阶

    本文链接:https://www.haomeiwen.com/subject/sxxrnxtx.html