美文网首页
python电子邮件系列(一)之MIME及电子邮件基本结构

python电子邮件系列(一)之MIME及电子邮件基本结构

作者: SimonJoe246 | 来源:发表于2018-03-05 11:57 被阅读0次

    MIME及电子邮件基本结构

    MIME

    MIME(Multiplepurpose Internet Mail Extensions),中译为“多用途互联网邮件扩展”,顾名思义,这是对传统互联网邮件的扩展,现已称为实际的互联网邮件标准。

    指的是一系列电子邮件的技术规范,主要包括:RFC 2045、RFC 2047、RFC 4288、RFC 4289、RFC 2077

    传统的电子邮件是1982年定下的,即:RFC 822

    它有一个重要的特点就是电子邮件只能使用ASCII字符。这导致了三个结果:1)非ASCII字符如中文非英语字符都不能出现在邮件中。2)电子邮件中不能插入二进制文件(如图片)3)电子邮件不能有附件

    这实际上是无法接受的,因此到了1992年,工程师决定扩展电子邮件的技术规范,提出一系列补充规范,这就是MIME的由来。

    电子邮件基本结构

    下面是一封传统的电子邮件:

    From: "Tommy Lee" <lee@example.com>
    To: "Jack Zhang" <zhang@example.com>
    Subject: Test
    Date: Wed, 17 May 2000 19:08:29 -0400
    Message-ID: <NDBBIAKOPKHFGPLCODIGIEKBCHAA.lee@example.com>
    
    Hello World.
    

    从上面可以看出发件人的姓名,地址,收件人的姓名,地址,邮件主题,发信日期。

    结构上,这封信分为三个部分:首先是信件头,然后是一个空行,最后是新建内容。收件人的客户端只会显示最后一部分,要查看全信,必须“查看原始邮件”功能。

    MIME对传统邮件的扩展主要便现在它在信头部分添加了几条语句,主要有三条:

    MIME-Version: 1.0

    这条语句是必须的,而且这个1.0是不变的,即使MIME已经升级了好几个版本

    Content-Type: text/html; charset="UTF-8"

    Content-Type表明信息类型,缺省值为“Text/plain”。它包含了主要类型/次要类型(maintype/subtype),主要类型有九中,分别是application、audio、example、image、message、model、multiple、text、video。

    每一种主要类型下面又有许多次要类型,常见的有:

    text/plain:纯文本,文件扩展名为.txt
    text/html:HTML文本,文件扩展名为.html和.htm
    image/jpeg:jpeg格式的图片,文件扩展名.jpg
    image/gif:GIF格式的图片,文件扩展名为.gif
    audio/x-wave:WAVE格式的文件,文件扩展名为.wav
    audio/mpeg:MP3格式的音频,文件扩展名.mp3
    video/mpeg:MPEG格式的视频,文件扩展名.mpg
    application/zip:PK-ZIP格式的压缩文件,文件扩展名.zip
    

    如果信息类型是Text/plain,那么还必须指明编码类型“charset”,缺省值是ASCII,其他可能值有ISO-8859-1UTF-8GB2312等等

    整个Content-Type这一行,不仅使用在电子邮件,后来也被移植到了HTTP协议中,所以现在只要是在网上传播的HTTP信息,都带有Content-Type头,以表明信息类型

    前面已经说过,电子邮件的传统格式不支持非ASCII字符和二进制,因此MIME添加了第三条语句:

    Content-transfer-encoding: base64

    为了使非ASCII字符转化为ASCII,这条语句指明了编码转化的方式,正常我们将中文等字符按照utf-8gbk等编码方式编码为二进制后,因为是非ASCII字符,所以需要再将这些非ASCII字符的二进制转化为ASCII字符的二进制,base64就可以起到这样的作用。在之前的有一篇博客详细介绍过此种编码转化。

    Content-transfer-encoding的值有5种----7bit8bitbinaryquoted-printablebase64----其中7bit是缺省值,即不用转化的ASCII字符。

    base64之外,常用的就是quoted-printable,它主要用于ACSII文本中夹杂少量非ASCII码字符的情况,不适合于转换纯二进制文件。

    以下是一封邮件的源码:

    Date: Wed, 18 Jun 2008 18:07:51 +0800 (CST)
    From: xxx <xxx@163.com>
    To: yifeng.ruan@gmail.com
    Message-ID: <14410503.1073611213783671983.JavaMail.coremail@bj163app54.163.com>
    Subject: =?gbk?B?xOO6ww==?=
    MIME-Version: 1.0
    Content-Type: multipart/alternative; 
    boundary=&quot;----=_Part_287491_22998031.1213783671982&quot;
    
    ------=_Part_287491_22998031.1213783671982
    Content-Type: text/plain; charset=gbk
    Content-Transfer-Encoding: base64
    
    IAq4+b7dsr+209PQudi55raoo6yyu7XD1Nq12Le9yM66zs341b7Jz7nSz+DTprXEtqvO96Osx+vE
    49TaxOO1xLKpv83W0AogIArW0Ln6yr2x6tPvIC0gyO7Su7fltcTN+MLnyNXWvgoKtcS12jEy1cXN
    vMasyb6z/aOst/HU8s7Sw8fXt76/xOO1xM/gudjU8MjOoaPQu9C7us/X96OhtMvNvMas1Nq4vbz+
    wO/D5g==
    ------=_Part_287491_22998031.1213783671982
    Content-Type: text/html; charset=gbk
    Content-Transfer-Encoding: quoted-printable
    
    <DIV>&amp;nbsp;</DIV>
    <DIV>=B8=F9=BE=DD=B2=BF=B6=D3=D3=D0=B9=D8=B9=E6=B6=A8=A3=AC=B2=BB=B5=C3=D4=
    =DA=B5=D8=B7=BD=C8=CE=BA=CE=CD=F8=D5=BE=C9=CF=B9=D2=CF=E0=D3=A6=B5=C4=B6=AB=
    =CE=F7=A3=AC=C7=EB=C4=E3=D4=DA=C4=E3=B5=C4=B2=A9=BF=CD=D6=D0</DIV>
    <DIV>&amp;nbsp;
    ......
    

    其中的MIME语句是:

    MIME-Version: 1.0
    Content-Type: multipart/alternative; 
    boundary=&quot;----=_Part_287491_22998031.1213783671982&quot;
    

    Content-Type: multipart/alternative表明这封信的内容是纯文本与HTML文本的混合。该项还有其他两个可能的值,分别是“multiple/mixed”,“multiple/related”,前者表示信件内容含有二进制内容(比如文中插入图片),后者表示含有附件。

    boundary=&quot;----=_Part_287491_22998031.1213783671982&quot boundary后的内容----=_Part_287491_22998031.1213783671982是信件不同部分的分割线,它通常是一个很长的随机字符串。

    信件内容又有两个子信件头:

    Content-Type: text/plain; charset=gbk
    Content-Transfer-Encoding: base64
    
    Content-Type: text/html; charset=gbk
    Content-Transfer-Encoding: quoted-printable
    

    表明信件的第一部分是gbk编码的纯文本,其编码转换方式是:base64

    第二部分是gbk编码的HTML文本,其编码转换方式是:quoted-printable

    邮件里所有的内容都要经过编码为二进制,再将二进制通过base64QP编码为ASCII字符在网络上传输。

    相关文章

      网友评论

          本文标题:python电子邮件系列(一)之MIME及电子邮件基本结构

          本文链接:https://www.haomeiwen.com/subject/osthfftx.html