美文网首页我爱编程
2018-05-10 D3 继续安装环境

2018-05-10 D3 继续安装环境

作者: dongdonghao | 来源:发表于2018-05-10 19:17 被阅读0次

    1.6 Web库的安装

    现在日常访问的网站都是Web服务程序搭建而成的。Python也有Web服务程序,比如Flask, Django等,我们可以使用它来开发网站和接口等。

    主要作用是构建代理池。本书中的Web服务成雪主要是Flask和Tornado。

    1.6.1 Flask的安装

    Flask是一个轻量级的Web服务程序,它简单,易用,灵活。

    1.6.2 Tornado的安装

    Tornado是一个支持异步的Web框架,通过使用非阻塞I/O流, 它可以支撑成千上万的开放连接,效率非常高。

    利用Tornado + Redis来搭建一个ADSL拨号代理池

    1.7 APP爬取相关库的安装

    简单的接口 Charles或者mitmproxy分析

    复杂的结构用mitmdump来对抓取的请求和相应进行实时处理和保存

    自动化App操作, 使用Appium。

    1.7.1 Charles的安装

    Charles是一个网络抓包工具,相比Fiddler,其功能更强大,跨平台支持得更好,

    由于使用时间是30天,所以先下载,等用到再配置

    1.7.2  mitmproxy的安装

    mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler, Charles的功能,只不过它通过控制台的形式操作。

    此外, mitmproxy还是两个关联组建,一个是mitmdump,它是mitmproxy的命令行接口,利用它可以对接Pyhton脚本,实现监听后的处理,另一个是mitmweb,它是一个Web程序,通过它可以清楚的观察到mitmproxy捕获的请求

    1.7.3 Appium的安装

    1.8 爬虫框架的安装

    我们直接用requests,Selenium等库写爬虫,爬取量不大,速度要求不高,完全可以满足需求,但是很多代码和组件可以复用,我们吧这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架出行,久而久之,爬虫框架就诞生了。

    利用框架,我们可以不用关心某些功能的具体实现,只关心逻辑即可,有了它们,可以大大简化代码量,而且框架也会变得清晰,爬取效率也会高很多。

    主要介绍了爬虫框架有pyspider和Scrapy.

    1.8.1 pyspider的安装

    pyspider是国人binux写的强大的爬虫框架,它带有强大的WebUI, 脚本编辑器,任务控制器,项目管理器以及结果处理器,同时支持多种数据库后端,多种消息队列,另外还支持JavaScript渲染页面的爬去,使用起来非常方便。

    1.8.2 Scrapy的安装

    Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具

    1.9 部署相关库的安装

    相关文章

      网友评论

        本文标题:2018-05-10 D3 继续安装环境

        本文链接:https://www.haomeiwen.com/subject/dxizrftx.html