美文网首页爬虫
一篇文章就够打通python网络请求,scrapy爬虫,服务器,

一篇文章就够打通python网络请求,scrapy爬虫,服务器,

作者: c2aa1d94244a | 来源:发表于2018-08-26 02:04 被阅读89次

    前段时间,铲屎官陆陆续续发了很多技术文章,由于篇幅太多,这里给大家规整一下,并且每篇文章都写个中心思想,方便大家查阅。但是,就是由于字数太多,文章是一个系统教程,肯定有99%的人没有看或者看完。

    可是,铲屎官有一位很热心的读者,是一名在读研究生,非计算机专业,马上就快毕业了,想找和计算机靠边的工作,想在自己的简历里面添枝加叶,他就根据铲屎官写的教程文章,自己一步一步跟下来,遇到不会的问题,铲屎官帮忙看看,在公众号上开发了一套学校成绩查询系统。可以说这波操作很强!

    image image image image image

    当他最后告诉我成功了,我很开心,因为我觉得,他用差不多一周的时间,通过看我的文章,从啥也不会,到公众号研发成功,我感觉很厉害。而且他这段经历,能够在他的简历上浓墨重彩的写一下,对校招找工作帮助也很大。那么今天,我就给大家来说一下,我的文章都说了什么。这篇文章就相当于是一个INDEX和ABSTRACT的结合体了。

    Python系列文章

    我们今天就来捋一捋这系列文章中,你能学到什么。

    基础篇

    『【Python实战】用代码来访问1024网站』

    这篇文章主要讲述了在爬虫中最常用的Python操作,没有使用任何框架,纯调用最基础的操作,这篇文章你可以学到:

    • request网络请求操作。
    • Python文件读写操作。
    • 利用BeautifulSoup4来解析html。

    注意:
    由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址,以及html中间一些tag名称。

    『【Python实战】用代码在1024论坛实现自动回贴,快速升级』

    这篇文章,主要是用Python的request中的session来执行POST登录操作。这个步骤很关键。如果网站需要用户名密码进行登录,可以参考这篇文章中的做法。

    • requests的session使用。
    • 模拟网站登录。

    注意:
    由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址。

    Scrapy篇

    『【Python实战】用Scrapy编写“1024网站种子吞噬爬虫”』

    这篇文章利用Scrapy爬虫框架,来爬取网站,并且加入了pipeline,对爬取结果做了处理保存处理,将图片和种子均保存在本地。

    • Scrapy框架。
    • pipeline保存图片和种子到本地。
    • BeautifulSoup解析html。

    注意:
    由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址,以及html中间一些tag名称。

    『【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区』

    这篇文章,超级详细的给大家讲解了Scrapy如何使用,通过爬取达盖尔旗帜社区,一步一步的分析html格式,并且最后指导大家怎样保存图片,如果从零入门Scrapy的话,建议跟着这篇文章做。

    注意:
    由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址,以及html中间一些tag名称。

    Scrapy高级篇

    『【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上』

    这篇文章主要讲述了,写好爬虫之后,可以将爬虫部署到云服务器上,在云服务器上定时执行,让你的爬虫,真正意义的投入到生产实践中。文章一步一步的讲述部署步骤,很详细。

    • 云服务器中Python3的安装命令。
    • Scrapyd的部署步骤。
    • 云服务器的购买步骤。
    • 云服务器的优惠券。

    注意:
    文章中讲述了Python3的安装,但是少了两行创建Python3软链接的命令,这里给大家补充一下:

    # ln -s /usr/local/python3/bin/python3 /usr/bin/python3
    # ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3
    

    运行了之后,你以后如果想运行Python3,就只需要输入# python3就可以了,pip同理,# pip3替换原来的pip命令。
    还有一点,文章有一行代码是错的,就是在云服务器上安装scrayd client的时候,应该是:pip install scrapyd-client

    爬虫服务器篇

    『【Python实战】在阿里云服务器上安装MongoDB,并实现远程可视化连接

    这篇文章主要讲述了在阿里云上面安装MongoDb的步骤,每一步都有截图,指令。很详细的教程。在腾讯云安装也是一样的步骤。记得修改配置文件,打开安全组的端口,启动服务,就可以远程连接了。MongoDB的创建,是为了以后爬虫存储爬取信息而做的准备。

    • 阿里云优惠券。
    • 阿里云安装MongoDB的详细步骤。
    • 可视化连接MongoDB。
    • 部分Python与MongoDB的交互代码。

    『【Python实战】跟我一步一步来,用Tornado来实现你的服务器梦想,纯干货教学』

    这篇文章,讲述了如何在阿里云上面启动你的Torndao服务器。文章里面讲述了两种返回方式,很实用的说。如果想做API的,可以根据这篇文章里面讲解的思路来学习。

    • tornado基本操作。
    • 返回网页格式和返回JSON格式的API写法。
    • 本地代码如何上传到阿里云服务器。
    • 本地IDE如何配置远端调试。
    • 阿里云部署tornado服务步骤。

    『帮你在你的服务器上部署Nginx,域名,SSL证书,内含『阿里云百元优惠券』』

    既然你已经有了阿里云服务器,还在服务器上顺利的启动了你的服务程序,那么,接下来就可以购买域名,配置SSL证书,实现https的访问。这篇文章就是告诉你怎么配置nginx和域名的。让你的网页不在需要通过ip来访问,而是通过域名访问。详细步骤,高清截图,现有的配置文件文本,复制黏贴就好。

    • 域名购买流程。
    • 安装配置Nginx。
    • 如何获取SSL证书。
    • 配置https。

    『手把手用阿里云服务器搭建袜子工具,从此不再求人』

    好多网站都访问不了,别怕,铲屎官带你通过代码来打开外面的世界。此文超级详细的步骤,真的超级详细!一步一步,按照指示敲代码,完全可以搞定!从服务器购买带最后成功访问网页的全套流程,全套截图。真的不能再细了,再细感觉就只能你有偿的让铲屎官帮你调试了。

    • 境外服务器的购买方法。
    • 阿里云腾讯云优惠券。
    • 酸酸(SS)的配置方法。

    纯高阶骚操作篇

    『【Python实战】带你玩转Scrapy的高阶骚操作,带邮件功能的“1024种子吞噬器2.0”,更高更快更强!』

    这个是针对之前的“种子吞噬器”的改进版本,使用FilesPipeline来替换原来文章中的requests,效率提升的好可怕!而且,还带了发邮件的功能,让你的种子下载下来,既在本地保存,还能再邮箱里面备份一份,超级屌的!

    • Python发送邮件,而且是带附件的邮件哦。
    • FilesPipeline的使用。
    • Scrapy的高阶使用方法。

    注意:
    由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址。

    『【Python实战】通过“酸酸”的骚操作,让Scrapy爬虫变得没有国界,真正的硬核为所欲为,想爬啥就爬啥』

    这篇文章,也是骚的不行,通过详细的步骤,来告诉你Scrapy爬虫如何通过境外服务器配置的酸酸,访问那些我们平时访问不到的网站。而且,这个项目是可以部署到云服务器的,自动运行,不需要人工每天点击就可以运行。铲屎官每天都是教的干货,你不服不行。

    • 阿里云腾讯云服务器优惠券。
    • 酸酸服务器配置和客户端配置方法。
    • privoxy的本地配置,实现HTTP代理。
    • 给Scrapy添加http代理的方法。
    • 爬取境外网站信息。

    END

    OK, 目前为止,铲屎官就写了这些文章,其实还有一个小程序的文章『手把手一条龙教程,专门献给还没有写过小程序的你』,用来帮你小程序入门,也是有彩蛋的,哈哈哈哈。

    以上全部文章的代码,获取方式:
    关注微信公众号『皮克啪的铲屎官』,回复『代码』,即可获取全部代码下载地址。

    最后了,推广一下自己的小程序『六十四卦』,炒鸡好用,没事了可以摇一摇试一试。

    image

    这么硬核的公众号,还不关注一波啊?

    image

    相关文章

      网友评论

        本文标题:一篇文章就够打通python网络请求,scrapy爬虫,服务器,

        本文链接:https://www.haomeiwen.com/subject/nmpniftx.html