【Python实战】Scrapy的高阶骚操作，带邮件功能的“10

作者: c2aa1d94244a | 来源:发表于2018-08-04 01:51 被阅读145次

【Python实战】Scrapy的高阶骚操作，带邮件功能的“10
爬虫实战三、PyCharm搭建Scrapy开发调试环境
Python极限操作流：控制Excel实现自动化办公！
【Python实战】通过“酸酸”的骚操作，让Scrapy爬虫变得
【系统设计篇】How to design Twitter ?
Python 骚操作--邮件转微信
Scrapy流程及模块介绍
Python爬虫框架：scrapy 实战操作
Python入门系列--邮件--day02
scrapy_redis 爬取58电销招聘信息

不知道大家是否还有印象，之前铲屎官写过一篇『【Python实战】用Scrapy编写“1024网站种子吞噬爬虫”』的文章，广受好评，大家也纷纷拿去学习。不知道跑过代码的同学发现没有，在那个代码里面，下载图片和种子的时候，速度很慢很慢。效率不是很高。

经过长期的磨练，铲屎官这期专门为大家带来一篇Python爬虫框架Scrapy的高阶骚操作，和市面上97%的爬虫文章绝对不同，因为这篇文章，属于版本迭代的产物，相当于『1024种子吞噬器v2.0』熟悉开发的同学肯定明白迭代的意义，运行效率更高，实现更多新的好用的特性。不管怎么说，看完这篇文章，你将会：

熟悉Scrapy的基本操作
掌握Scrapy的高阶骚操作
学会拿着Scrapy的FilesPipeline来搞事情
会使用Python来发Email
以及在服务器上面部署爬虫的小知识点
当别人留下邮箱说好人一生平安的时候，你知道怎么做了

总而言之，这篇文章给你讲述的，不是一段代码，也不是一个工程，而是一个项目，从前到后，从上到下，从开发到部署，完完整整的项目讲解。而且，项目的实现思想，可能是有些人曾经的想法，他们想过，但是不知从何下手，最后就放弃了，别慌，铲屎官为你们一一实现。

看铲屎官的文章，要知道铲屎官讲的都是项目开发的思路，而不是项目本身。因为项目代码是死的，而你的思维方式是活的。

整套项目我都部署到了阿里云服务器上，超级好用，萌新可以通过下面的链接领取阿里云和腾讯云的优惠券，优惠力度大约一年300元的服务器，能便宜120元。反正这两个比Amazon的AWS好用，速度快而且连接稳定。
阿里云（总价值千元代金券）：
https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=nrkmbo9q
腾讯云（总价值高达2775元代金券）：
https://cloud.tencent.com/redirect.php?redirect=1025&cps_key=b351b2fc50b15866ff9d19b58a5df0f5

废话不多说，快来看看我们这次迭代的东西到底是什么。

INTROCDUCTION

我们还是来拿Scrapy爬1024社区，主要就是爬那几个有下载链接的版块。

# settings.py文件中
BLOCK_INFO = {
    15: "亚洲骑兵",
    2: "亚洲步兵",
    25: "国产原创",
    4: "欧美电影",
    26: "中字原创"
}

针对每一个板块的每一个帖子，里面有下载种子的地址，一般还有配图，我们可以把这些图片和种子一起下载下来，保存到本地。

同时也可以将下载下来的图片和种子，通过邮件的形式发送到指定邮箱里面。

整个项目思路条理清晰：爬取，分析，下载，保存，发送。但是我们可以玩出一些花活儿。比如，我通过Scrapyd可以将爬虫部署到服务器上面，这样就可以定时定点去爬，然后可以将结果情况发送到邮箱里，方便管理员管理查看。

HOW TO USE

先来说一说使用说明，源码在Github上已经共享出来了，之前关注过我Github的小伙伴可以在上面找到，项目叫『SESpider1024』，不知道地址的小伙伴没关系，关注微信公众号『皮克啪的铲屎官』，回复『代码』即可获取下载地址。

将工程git到本地之后，推荐用PyCharm打开，在跑程序之前，需要在setting.py里面下面的这些变量设置一下：

ROOT_URL = "https://XX.XXXX.XX/"        # 这里需要更新到最新的地址
                                    # 这里是用126邮箱做例子，并不局限126邮箱
SMTP_HOST = "smtp.126.com"          # 发送邮件的smtp服务器
SMTP_USER = "XXXXXX@126.com"       # 用于登录smtp服务器的用户名，也就是发送者的邮箱
SMTP_PWD = "XXXXXXX"             # 授权码，和用户名user一起，用于登录smtp， 非邮箱密码
SMTP_PORT = 25                      # smtp服务器SSL端口号，默认是465，具体是什么，网上一搜邮箱域名和他的smtp就知道了
SMTP_SENDER = "XXXXXX@126.com"      # 发送方的邮箱
SMTP_TO_LIST = ["YYYYYY@126.com", "ZZZZZZ@126.com"]     # 发送目标邮箱地址，是个list

设置成功之后，直接运行/Email1024/Run.py文件即可。

这里会涉及到发邮件的问题，这里铲屎官要多说一点，可能有的小伙伴不知道这个是什么，所以这里铲屎官手把手的来叫你们如何打开你们邮箱的SMTP设置。

铲屎官这里就以126邮箱为例，其实邮箱都差不多的，万变不离其宗。

注册邮箱的过程，我就不多说了，这个应该大家都会的。

然后登录邮箱，在最上面一行找到『设置』，选择『POP3/SMTP/IMAP』：

image

点击之后，需要将下面的几个打钩选择开通即可：

image

这里我们看到，针对126邮箱的SMTP服务器地址是：smtp.126.com，这个东西就是我们上面需要在settings.py里面设置的。

端口号怎么找？直接百度126 smtp，就会出来官方的帮助中心，里面我们打开，就能看到端口号列表了。

image

我们就把25填写到上面settings.py里面的端口号就可以。

这里就设置完毕了，如果设置QQ邮箱，163邮箱，步骤都是差不多的，打开邮箱的SMTP服务即可。

一切都搞好之后，运行Run.py就可以了。

OUTCOME

我是做了这个项目之后，才知道，原来个人邮箱每天发邮件是有上限的。从来都不打嘴炮，用实例和图片说话，下面就是简简单单的跑了一小部分的成果：

image

大家自己看就好，图片都是预览图片，种子文件都是可以点击下载的。整体程序运行起来方便快捷，当你看到console里面打印的日志的时候，简直：行云流水。发送邮箱截图也给你们看一看：

image

TECH DETAIL

这里的技术要点，我主要挑Scrapy的骚操作来说一下。

骚操作之FilesPipeline

首先是FilesPipeline，这个东西是Scrapy内部集成好的，主要用途是下载文件或者图片。因为是集成在框架内部的，所以速度很快，调用方便。

我们如何使用？首先要从两个地方着手：items.py 和 pipelines.py。

    ``` 
    items.py
    ```
class Email1024Item(scrapy.Item):
    topic_id = scrapy.Field()
    topic_url = scrapy.Field()
    topic_title = scrapy.Field()
    topic_img_url = scrapy.Field()
    block_name = scrapy.Field()
    file_urls = scrapy.Field()
    file = scrapy.Field()   # 这个需要创建出来，为下载文件提供使用

在items.py文件里面，我们需要创建item的各个变量，若是需要使用FilesPipeline的话，需要在建一个file=scrapy.Field()的变量。

下一步就是关键的pipelines.py文件


    ```
    pipelines.py
    ```
class Email1024FilePipeline(FilesPipeline):
    def get_media_requests(self, item, info):
        for index, image_url in enumerate(item['file_urls']):
            if 'gif' in image_url:
                continue
            yield Request(image_url, meta={'name': item['topic_title'], 'index': str(index), 'block_name': item['block_name']})

    def file_path(self, request, response=None, info=None):
        # 因为'/'字符会在路径中转换成文件夹，所以要替换掉
        name = request.meta['name'].strip().replace('/', '-')
        if request.meta['index'] == '0':
            return request.meta['block_name'] + "/" + name + "/" + name + ".torrent"
        else:
            return request.meta['block_name'] + "/" + name + "/" + name + "-" + request.meta['index'] + ".jpg"

    def item_completed(self, results, item, info):
        emailHelper = EmailHelper()
        emailHelper.sendEmailWithAttr(results, item)
        return item

这里我要着重解释一下：

首先是get_media_requests()方法。这个方法的用途是：当item生成好，传入的时候，需要在这个方法里面发起文件下载的请求。即调用 scrapy.Request() 方法。

在这里，我们做法就是将file_urls里面的每一个url请求一遍。注意，这里的file_urls就是上面item中的 file_urls=scrapy.Field()，这个东西是一个list()。

接着，是方法 file_path() ，这个方法的用途主要是要返回一个合法的string作为下载文件的保存路径名字。我这里做了特殊处理，因为request请求回来的其实都是字节流，将这些东西保存下来，如果想要打开，还需要添加相对于的合法后缀才行。所以，我固定的将种子文件放在file_urls列表中第一个，并且将它的请求文件保存后缀改成.torrent，其他的则保存成.jpg。如果最后返回的文件路径不合法或者错误，运行Spider结束之后，是不会有任何下载保存动作的，所以这里需要调试的时候特别用心，多多注意一下。

最后是item_completed()方法，这个方法的调用时机是在item里面的所有url下载完毕之后，会有一个result返回。result是一个集合，里面记录了各个url的下载情况和路径。我们可以根据result的结果，来对item做处理。在这里，我的处理是将结果发送出去。

OK，这就是FilesPipeline的玩法。这个东西不光能下载文件，还能下载图片，我这里的例子就是包含了种子和图片两种。所以，多实践，多采坑。

最后还要注意一步，就是写了Pipeline，一定要在settings.py文件里面去设置一下：

ITEM_PIPELINES = {
   'Email1024.pipelines.Email1024FilePipeline': 1,
}

骚操作之Email

接着，我们来说说发送email的事儿。在上面的代码，我们看到了有个东西叫EmailHelper()的东西。这个东西就在emailUtil.py里面。这个文件主要作用就是用来发邮件的。其实Scrapy内部就已经集成了MailSender,但是，这个东西我没找到他发送附件的功能，只能发送一些简单的文字类东西。所以，我放弃了。转头开始用Python的email库。这个库在Python3之后就是自带的了，用起来还算挺方便的。这里就简单来说一下关键的技术点：

    def sendEmailWithAttr(self, result, item):
        message = MIMEMultipart()
        message['From'] = self.sender               # 发件人
        message['To'] = ",".join(self.toLst)                 # 收件人列表
        message['Subject'] = item['topic_title']                # 邮件标题
        message.attach(MIMEText(item['topic_title'], 'plain', 'utf-8'))

        for downItem in result:
            if downItem[0] == True:
                filename = './' + FILES_STORE + '/' + downItem[1]['path']
                with open(filename, 'rb') as f:
                    attachfile = MIMEApplication(f.read())
                filename = downItem[1]['path'].split('/')[-1]
                attachfile.add_header('Content-Disposition', 'attachment', filename=filename)
                encoders.encode_base64(attachfile)
                message.attach(attachfile)

        try:
            smtpSSLClient = smtplib.SMTP(self.smtp_host, self.smtp_port)
            loginRes = smtpSSLClient.login(self.smtp_user, self.smtp_pwd)
            print(f"登录结果：loginRes = {loginRes}")
            if loginRes and loginRes[0] == 235:
                print(f"登录成功，code = {loginRes[0]}")
                smtpSSLClient.sendmail(self.sender, self.toLst, message.as_string())
                print(f"发送成功. message:{message.as_string()}")
            else:
                print(f"登陆失败，code = {loginRes[0]}")
        except Exception as e:
            print(f"发送失败，Exception: e={e}")

这里比较关键的点就是那段添加附件的代码，这里需要找到已经下载好的文件路径，然后读取文件，并且调用message.attach(attachfile)加入到附件里就可有。邮件的内容，我这里是发送的是帖子的标题。其实邮件内容可以发送html格式的东西，写法：message.attach(MIMEText(htmlBody, 'html', 'utf-8'))即可。

关于发邮件，在实际运行的时候，是会打印状态码的。到时候，可以根据具体的状态吗，去百度查一下是什么状态。我这里写几点我遇到的问题：

个人邮箱每日都有邮件上限
如果把程序布置到服务器上，是需要调用SSL发送的。
邮件内容如果附带一些url，会被邮件系统误判为垃圾邮件或者病毒邮件而发送不出去。
最好把发送邮箱地址添加到白名单里面。

WHAT ABOUT ON SERVER

如果要把爬虫部署到服务器上，这又需要些什么啊？下面铲屎官就和你来说一说：

首先请参考这篇文章『【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上』，里面讲述了详细的部署方法和周期运行方法。

然后，如果你不修改任何代码就将程序部署到服务器上，邮件功能是跑不通的。就比如我自己轻身经历，将爬虫部署到阿里云服务器，我需要修改主要是emailUtil.py，地方如下：

#将
self.smtp_port = 25
# 改为
self.smtp_port = 465

#将
smtpSSLClient = smtplib.SMTP(self.smtp_host, self.smtp_port)
#改为
smtpSSLClient = smtplib.SMTP_SSL(self.smtp_host, self.smtp_port)

然后再将服务器的安全组里面，打开465端口就可以了。

CONCLUSION

这次的骚操作解说，现在看来就差不多完结了，我们可以从铲屎官的文章中了解到：Scrapy可以下载文件，同时还支持发送Email，而且，可以把爬虫部署到服务器上，这样就能够解放双手，还能了解到爬网站的动向。方便的很。铲屎官就已经把这种会发email的爬虫部署到了服务器阿里云服务器，还专门给女朋友做了一个爬虫，你们可以通过

https://peekpa.tech/jp/

访问查看爬虫结果，我还会将重要的信息通过email的形式发送出来。

image

这或许就是码农该有的浪漫吧。其实这种代码模式很好，自动爬取，还可以发送邮件通知，在一定程度上很自动化。就比如，你可以爬取某个购物网站，如果一点价格发生变化，你就发邮件预警，这样玩也是可以的；再比如你可以爬取某个论坛，实时的检测论坛上帖子数量是否变化，这样玩也是可以的；爬取论坛，突然发现有一条是你喜爱的明星出演的帖子，发邮件通知，这样玩也可以。。。玩法有很多，关键的手法，这篇文章给你讲授了手法，希望能够给大家带来帮助。

最后，再给想获得代码的同学说一下获取途径：关注公众号『皮克啪的铲屎官』，回复『代码』即可获取。

这么硬核的公众号，还不赶紧关注一波啊

底部二维码.png

【Python实战】Scrapy的高阶骚操作，带邮件功能的“10
不知道大家是否还有印象，之前铲屎官写过一篇『【Python实战】用Scrapy编写“1024网站种子吞噬爬虫”』的...
爬虫实战三、PyCharm搭建Scrapy开发调试环境
一、环境准备 Python开发环境以及Scrapy框架安装，参考：爬虫实战一、Scrapy开发环境（Win10+A...
Python极限操作流：控制Excel实现自动化办公！
Python骚操作：Python控制Excel实现自动化办公！ 1.安装 Python骚操作：Python控制Ex...
【Python实战】通过“酸酸”的骚操作，让Scrapy爬虫变得
这么多文章下来，我思考了一下，为什么要写爬虫？答案就是：不是我铲屎官吹，今天这篇文章里面所要讲的东西，在网上资源...
【系统设计篇】How to design Twitter ?
首先推荐阅读一：一篇文章就够打通python网络请求，scrapy爬虫，服务器，代理，各种骚操作，真的一篇就够 ...
Python 骚操作--邮件转微信
阅读本文大约需要 2 分钟。今天是七夕，来一波浪的，如果你没有出去玩，不妨一试。在日常工作中，我们会经常收到邮...
Scrapy流程及模块介绍
参考资料：python网络爬虫开发实战 1.scrapy的优势 Scrapy框架具有高效爬取速率，相关扩展组件多，...
Python爬虫框架：scrapy 实战操作
1. Pycharm调试scrapy代码流程由于Pycharm本身是没有自带scrapy代码包的，所以正常情...
Python入门系列--邮件--day02
参考地址： Python发送邮件给多人 Python邮件功能 - 使用163邮箱SMTP服务器发送邮件
scrapy_redis 爬取58电销招聘信息
环境 win10 Pycharm Python 3.6.1 Scrapy 1.0 scrapy_redis mys...