美文网首页程序员
【Python入门】41.电子邮件之 POP3收取邮件

【Python入门】41.电子邮件之 POP3收取邮件

作者: 三贝_ | 来源:发表于2018-09-13 18:20 被阅读5次

    摘要:如何通过POP3,用Python收取电子邮件。


    *写在前面:为了更好的学习python,博主记录下自己的学习路程。本学习笔记基于廖雪峰的Python教程,如有侵权,请告知删除。欢迎与博主一起学习Pythonヽ( ̄▽ ̄)ノ *


    摘要
    本学习笔记基于廖雪峰的Python教程。欢迎与博主一起学习Pythonヽ( ̄▽ ̄)ノ
    本节内容:如何通过POP3,用Python收取电子邮件。

    目录

    电子邮件
    POP3收取邮件
    poplib下载邮件
    解析邮件
    小结

    电子邮件

    POP3收取邮件

    收取邮件通常用的是POP协议,目前版本号为3,俗称POP3。

    我们需要编写一个MUA从MDA上收取邮件。

    我们要用到Python中的两个模块,poplibemail,分为两大步骤:

    1.用poplib下载邮件的原始文本
    2.用email解析原始文本,还原邮件。

    当然了,在这之前需要保证我们使用的邮箱已经开启了POP3服务。

    poplib下载邮件

    首先引入poplib模块:

    import poplib
    

    准备登录POP3服务器的相关信息,包括邮箱地址、密码和服务器地址:

    email = input('Email:')                # 输入邮箱地址
    password = input('Password:')          # 输入密码
    pop3_server = input('POP3_server:')    # 输入POP3服务器地址
    

    连接POP3服务器:

    server = poplib.POP3(pop3_server)
    server.set_debuglevel(1)                      # 打开调式信息
    print(server.getwelcome().decode('utf-8'))    # 打印POP3服务器欢迎信息
    

    需要注意的是,如果使用的邮箱pop服务有加密,则需要以加密的方法连接服务器,像这样:

    server = poplib.POP3_SSL(pop3_server)
    

    进行身份认证:

    server.user(email)
    server.pass_(password)
    

    返回邮箱的相关信息:

    print('Messages:%s. Size:%s' % server.stat())     # 返回邮件数目和占用空间
    resp, mails, octets = server.list()               # 获取邮件列表
    print(mails)                                      # 打印所有邮件编号及相应的大小
    

    这里stat()可以获取邮件总数目及占用空间。

    list()可以获取每一封邮件的编号即占用空间。

    获取一封邮件:

    index = len(mails)                                 # index为邮件总数目                            
    resp, lines, octets = server.retr(index)           # 获取最新一封邮件的信息
    msg_content = b'\r\n'.join(lines).decode('utf-8')  # 获得整个邮件的原始文本
    

    retr()可以返回邮件的全部文本,其中lines存储的是文本的每一行内容。

    接下来就是解析文本的部分,后面会介绍:

    msg = Parser().parsestr(msg_content)             # 解析邮件原始文本
    

    最后关闭连接:

    server.quit()
    

    解析邮件

    解析邮件的过程与构造邮件正好相反。

    首先,引入必要的模块:

    from email.parser import Parser            # 解析模块
    from email.header import decode_header     # 用于获取头文件的编码信息
    from email.utils import pasrseaddr         # 用于格式化邮件信息
    
    import poplib
    

    由于在解析邮件的过程中,会遇到编码问题,需要进行相应的解码才能正常显示。

    所以我们需要先定义相关函数用以解码。

    针对邮件的相关信息,比如Subjict,name等,我们定义一个decode_str函数:

    def decode_str(s):
        value, charset = decode_header(s)[0]
        if charset:
            value = valur.decode(charset)           # 如果文本中存在编码信息,则进行相应的解码
        return value
    

    针对邮件的文本内容,我们需要检测编码,否则,非UTF-8编码的邮件都无法正常显示,我们定义一个guess_charset函数:

    def guess_charset(msg):
        charset = msg.get_charset()                             # 直接用get_charset()方法获取编码
        if charset is None:                                     # 如果获取不到,则在原始文本中寻找
            content_type = msg.get('Content-Type', '').lower()  
            pos = content_type.find('charset=')                 # 找'charset='这个字符串
            if pos >=0:                                         # 如果有,则获取该字符串后面的编码信息
                charset = content_type[pos+8:].strip()
        return charset
    

    这里lower()是把字符串全改为小写表示。

    strip()是去除字符串前后的空格字符。

    准备好编码的问题,就开始正式解析邮件吧。

    把邮件内容解析为Message对象:

    msg = Parser().parsestr(msg_content)
    

    由于这个Message对象可能嵌套着其他MIMEBase对象,所以我们要递归地打印出Mseeage的层次结构:

    def print_info(msg, indent=0):                              # indent用于缩进显示 
        # 首先打印邮件的发件人,收件人和主题
        if indent == 0:
            for header in ['From', 'To', 'Subject']:
                value = msg.get(header, '')
                if value:
                    if header == 'Subject':                     # 解码主题信息
                        value = decode_str(value)
                    else:                                       # 解码发件人和收件人信息
                        hdr, addr = parseaddr(value)
                        name = decode_str(hdr)
                        value = u'%s <%s>' % (name, addr)
                print('%s%s: %s' % ('  '* indent, header, value))   #'  ' *indent可以打印出2*indent个空格
                
        # 将组合邮件对象分离,         
        if (msg.is_multipart()): 
            parts = msg.get_payload()                           # 拿取msg的子对象
            for n, part in enumerate(parts):
                print('%spart %s' % ('  ' * indent, n))
                print('%s--------------------' % ('  ' * indent))
                print_info(part,indent + 1)
        
        # 逐一打印邮件对象
        else: 
            content_type = msg.get_content_type()               # 获取邮件对象格式
            if content_type == 'text/plain' or content_type == 'text/html':  # 如果为文本邮件,则直接打印
                content = msg.get_payload(decode=True)
                charset = guess_charset(msg)                     # 检测编码
                if charset:
                    content = content.decode(charset)           # 解码
                print('%sText: %s' % ('  ' * indent, content))  # 打印内容
            else:
                print('%sAttachment: %s' % ('  ' * indent, content_type))  # 否则为附件,获取附件信息
    

    整理一下上面的代码,就能用来收取邮件了,比如有这样一封邮件:


    电子邮件6.png

    我们运行上面的代码,把显示结果如下:

    +OK QQMail POP3 Server v1.0 Service Ready(QQMail v2.0) 
    Messages:19. Size:1335886 
    
    From: 三贝 <xxxxxx@126.com> 
    To: xxxxxxxx<xxxxx@qq.com> 
    Subject: POP3测试 
    part 0 
    -------------------- 
      part 0 
      -------------------- 
        Text: 你好,正在使用POP3收取邮件。 
      part 1 
      -------------------- 
        Text: <div style="line-height:1.7;color:#000000;..."><div>你好,正在使用...
     &nbsp; &nbsp;</div></div></span> 
    part 1 
    -------------------- 
      Attachment: image/png 
    

    从打印的结构我们可以看出,这封邮件是一个MIMEMultipart,分为两部分:

    第一部分又是一个MIMEMultipart,这一部分包含一个纯文本格式的MIMEText和HTML格式的MIMEText

    第二部分是一个Image文件。

    小结

    Python用POP3收取电子邮件分两步:第一,使用poplib下载邮件原始文本;第二,使用email把原始文本解析为Message对象,然后将内容展示给用户。


    以上就是本节的全部内容,感谢你的阅读。

    下一节内容:数据库

    有任何问题与想法,欢迎评论与吐槽。

    和博主一起学习Python吧( ̄▽ ̄)~*

    相关文章

      网友评论

        本文标题:【Python入门】41.电子邮件之 POP3收取邮件

        本文链接:https://www.haomeiwen.com/subject/xnlggftx.html