第八章 scrapy进阶

作者: Xia0JinZi | 来源:发表于2018-01-04 11:04 被阅读0次

第八章 scrapy进阶
scrapy——进阶
2018-08-12
爬虫就业冲刺20180818
第八章使用诊断报告 - 进阶资讯
scrapy学习
scrapy 进阶使用
scrapy 使用中间件
南京链家爬虫系列文章（二）——scrapy篇
《python分布式爬虫打造搜索引擎》（下）----学习笔记

scrapy 进阶

标签（空格分隔）： python scrapy selenium

selenium动态网页与请求

知乎模拟点击

brower = webdriver.Chrome('E:/spider_tools/chromedriver_win32/chromedriver.exe')
brower.get('https://www.zhihu.com/#signin')
brower.find_element_by_css_selector('.qrcode-signin-step1 span.signin-switch-password').click()
brower.find_element_by_css_selector('.view-signin input[name="account"]').send_keys('13083337152')
brower.find_element_by_css_selector('.view-signin input[name="password"]').send_keys('jinquan1994')
brower.find_element_by_css_selector('.view-signin button.sign-button').click()
brower.quit()

注意：get加载完成才可以进行模拟点击，可以通过添加time.sleep(15)方式，让页面添加完成。

鼠标下拉事件

brower.execute_script('window.scrollTo(0,document.body.scrollHeight);var lenOfPage = document.body.scrollHeight;return lenOfPage;')

不加载图片

chrom_opt = webdriver.ChromeOptions()
prefimg = {"profile.managed_default_content_settings.images":2}
chrom_opt.add_experimental_option('prefs',prefimg)

phantonjs 无界面式浏览器

brower = webdriver.PhantomJS(executable_path='E:/spider_tools/phantomjs-2.1.1-windows/bin/phantomjs.exe')
brower.get('https://www.zhihu.com/#signin')

telent 链接

telent ip:端口

spider 启动暂停

scrapy crawl lagou -s JOBDIR = job_info/001 # 新的启动
crtl+c

原视频UP主慕课网（聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎）
本篇博客撰写人: XiaoJinZi 个人主页转载请注明出处
学生能力有限附上邮箱: 986209501@qq.com 不足以及误处请大佬指责

网友评论

我爱编程

本文标题：第八章 scrapy进阶

本文链接：https://www.haomeiwen.com/subject/sxxrnxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第八章 scrapy进阶

scrapy 进阶

selenium动态网页与请求

相关文章

第八章 scrapy进阶

scrapy——进阶

2018-08-12

爬虫就业冲刺20180818

第八章使用诊断报告 - 进阶资讯

scrapy学习

scrapy 进阶使用

scrapy 使用中间件

南京链家爬虫系列文章（二）——scrapy篇

《python分布式爬虫打造搜索引擎》（下）----学习笔记

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

我爱编程