美文网首页Python
深入理解Python内存管理与垃圾回收,再也不怕问了(一)

深入理解Python内存管理与垃圾回收,再也不怕问了(一)

作者: 宇宙之一粟 | 来源:发表于2020-04-26 23:36 被阅读0次

    面试官:听说你学Python?那你给我讲讲Python如何进行内存管理?

    我:???内存管理不太清楚额。。。

    面试官:那你知道Python垃圾回收吗?

    我:(尴尬一下后,还好我看到过相关博客)Python垃圾回收引用计数为主、标记清除和分代回收为主。

    面试官:那你仔细讲讲这三种垃圾回收技术?

    我:卒。。。

    内存的管理简单来说:分配(malloc) + 回收(free)

    再我们看文章之前,先思考一下:如果是你设计,会怎么进行内存管理?
    答:好,不会设计(笔主也不会),会的大佬请绕过。我们一起了解看看Python是怎么设计的。
    为了提高效率就是:

    • 如何高效分配?
    • 如何有效回收?

    什么是内存

    买电脑的配置“4G + 500G / 1T”,这里的4G就是指电脑的内存容量,而电脑的硬盘 500G / 1T。

    内存(Memory,全名指内部存储器),自然就会想到外存,他们都硬件设备。

    内存是计算机中重要的部件之一,它是外存与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。

    内存就像一本空白的书

    首先,您可以将计算机的存储空间比作一本空白的短篇小说。页面上还没有任何内容。最终,会有不同的作者出现。每个作者都需要一些空间来写他们的故事。

    由于不允许彼此书写,因此必须注意他们能书写的页面。开始书写之前,请先咨询书籍管理员。然后,管理员决定允许他们在书中写什么。

    如果这书已经存在很长时间了,因此其中的许多故事都不再适用。当没有人阅读或引用故事时,它们将被删除以为新故事腾出空间。

    本质上,计算机内存就像一本空书。实际上,调用固定长度的连续内存面块是很常见的,因此这种类比非常适用。

    作者就像需要将数据存储在内存中的不同应用程序或进程。决定作者在书中书写位置的管理员就像是各种存储器管理的角色,删除旧故事为新故事腾出空间的人是垃圾收集者(garbage collector)。

    以上类比出自此文

    内存管理:从硬件到软件

    为什么4G内存的电脑可以高效的分析上G的数据,而且程序可以一直跑下去。

    在这4G内存的背后,Python都帮助我们做了什么?

    内存管理是应用程序读取和写入数据的过程。内存管理器确定将应用程序数据放置在何处。

    由于内存有限,类比书中的页面一样,管理员必须找到一些可用空间并将其提供给应用程序。提供内存的过程通常称为内存分配。

    其实如果我们了解内存管理机制,以更快、更好的方式解决问题。

    看完本篇文章,带您稍微了解Python内存管理的设计哲学。

    对象管理

    可能我们听过,Python鼎鼎有名的那句“一切皆对象”。是的,在Python中数字是对象,字符串是对象,任何事物都是对象,Cpython下,而Python对象实现的核心就是一个结构体--PyObject。

    typedef struct_object{
    
      int ob_refcnt;
    
      struct_typeobject *ob_type;
    
    }PyObject;
    

    PyObject是每个对象必有的内容,可以说是Python中所有对象的祖父,仅包含两件事:

    • ob_refcnt:引用计数(reference count)
    • ob_type:指向另一种类型的指针(pointer to another type)

    所以,所以CPython是用C编写的,它解释了Python字节码。这与内存管理有什么关系?

    好吧,C中的CPython代码中存在内存管理算法和结构。要了解Python的内存管理,您必须对CPython本身有一个基本的了解。其他我们也不深究,感兴趣的同学自行了解。

    CPython的内存管理

    注:这一块内容在网上找了很多内容,看了好久也没懂,自己太菜。唯一看懂的就是 Alexander VanTol的文章相关部分内容,搬运过来哦放在此处,有删减,有兴趣的同学建议看原文。

    下图的深灰色框现在归Python进程所有。

    在这里插入图片描述

    Python将部分内存用于内部使用和非对象内存。另一部分专用于对象存储(您的int,dict等)。请注意,这已被简化。如果您需要全貌,则可以看CPython源代码,所有这些内存管理都在其中进行。

    CPython有一个对象分配器,负责在对象内存区域内分配内存。这个对象分配器是大多数魔术发生的地方。每当新对象需要分配或删除空间时,都会调用该方法。

    通常,为list和int等Python对象添加和删除数据一次不会涉及太多数据。因此,分配器的设计已调整为可以一次处理少量数据。它还尝试在绝对需要之前不分配内存。

    现在,我们来看一下CPython的内存分配策略。首先,我们将讨论这三个主要部分以及它们之间的关系。

    Python的内存分配器

    内存结构

    在Python中,当要分配内存空间时,不单纯使用 malloc/free,而是在其基础上堆放3个独立的分层,有效率地进行分配。

    [图片上传失败...(image-22ef57-1588088246750)]
    第 0 层往下是 OS 的功能。第 -2 层是隐含和机器的物理性相关联的部分,OS 的虚拟内 存管理器负责这部分功能。第 -1 层是与机器实际进行交互的部分,OS 会执行这部分功能。 因为这部分的知识已经超出了本书的范围,我们就不额外加以说明了。
    在第 3 层到第 0 层调用了一些具有代表性的函数,其调用图如下。
    [图片上传失败...(image-8142ba-1588088246750)]

    第0层 通用的基础分配器

    以 Linux 为例,第 0 层指的就是 glibc 的 malloc() 这样的分配器,是对 Linux 等 OS 申 请内存的部分。

    Python 中并不是在生成所有对象时都调用 malloc(),而是根据要分配的内存大小来改 变分配的方法。申请的内存大小如果大于 256 字节,就老实地调用 malloc();如果小于等 于 256 字节,就要轮到第 1 层和第 2 层出场了。

    更细致的过程:垃圾回收机制的算法与实现

    第1层 Python低级内存分配器

    Python 中使用的对象基本上都小于等于 256 字节,并且净是一些马上就会被废弃的对象。
    请看下面的例子。

    for x in range(100):
        print(x)
    

    上述 Python 脚本是把从 0 到 99 的非负整数 A 转化成字符串并输出的程序。这个程序会大量使用一次性的小字符串。

    在这种情况下,如果逐次查询第 0 层的分配器,就会发生频繁调用 malloc() 和 free() 的情况,这样一来效率就会降低。

    因此,在分配非常小的对象时,Python 内部会采用特殊的处理。实际执行这项处理的就是第 1 层和第 2 层的内存分配器。

    当需要分配小于等于 256 字节的对象时,就利用第 1 层的内存分配器。在这一层会事先 从第 0 层开始迅速保留内存空间,将其蓄积起来。第 1 层的作用就是管理这部分蓄积的空间。

    第1层处理的信息的内存结构

    根据所管理的内存空间的作用和大小的不同,我们称最小 的单位为 block,最终返回给申请者的就是这个 block 的地址。比 block 大的单位的是 pool, pool 内部包含 block。pool 再往上叫作 arena。
    [图片上传失败...(image-bb1008-1588088246750)]
    也就是说 arena > pool > block,感觉很像俄罗斯套娃吧。
    为了避免频繁调用 malloc() 和 free(),第 0 层的分配器会以最大的单位 arena 来保留 内存。pool 是用于有效管理空的 block 的单位。
    arena 这个词有“竞技场”的意思。大家可以理解成竞技场里有很多个 pool,pool 里面漂 浮着很多个 block,这样或许更容易理解一些。

    arena

    Arenas是最大的内存块,并在内存中的页面边界上对齐。页面边界是操作系统使用的固定长度连续内存块的边缘。Python假设系统的页面大小为256 KB。
    [图片上传失败...(image-e2e369-1588088246750)]
    Arenas内有内存池,池是一个虚拟内存页(4 KB)。这些就像我们书中类比的页面。这些池被分成较小的内存块。

    给定池中的所有块均具有相同的“大小等级”。给定一定数量的请求数据,大小类定义特定的块大小。下图直接取自源代码注释:

    Request in bytes Size of allocated block Size class idx
    1-8 8 0
    9-16 16 1
    17-24 24 2
    25-32 32 3
    33-40 40 4
    41-48 48 5
    49-56 56 6
    57-64 64 7
    65-72 72 8
    497-504 504 62
    505-512 512 63

    这一点可以看Pymalloc

    • 针对小对象(<= 512 bytes),Pymalloc会在内存池中申请内存空间

    • > 512bytes,则会PyMem_RawMalloc()和PyMem_RawRealloc()来申请新的内存空间

    例如,如果请求42个字节,则将数据放入48字节大小的块中。

    pool

    arena 内部各个 pool 的大小固定在 4K 字节。因为几乎对所有 OS 而言,其虚拟内存的页 面大小都是 4K 字节,所以我们也相应地把 pool 的大小设定为 4K 字节。

    第1层总结

    第 1 层的任务可以用一句话来总结,那就是“管理 arena”。

    第2层 Python对象分配器

    第 2 层的分配器负责管理 pool 内的 block。
    这一层实际上是将 block 的开头地址返回给申请者,并释放 block 等。 那么我们来看看这一层是如何管理 block 的吧。

    block

    pool 被分割成一个个的 block。我们在 Python 中生成对象时,最终都会被分配这个 block (在要求大小不大于 256 字节的情况下)。
    以 block 为单位来划分,这是从 pool 初始化时就决定好的。这是因为我们一开始利用 pool 的时候就决定了“这是供 8 字节的 block 使用的 pool”。
    pool 内被 block 完全填满了,那么 pool 是怎么进行 block 的状态管理的呢?
    block 只有以下三种状态。

    1. 已经分配
    2. 使用完毕
    3. 未使用

    第3层 对象特有的分配器

    对象有列表和元组等多种多样的型,在生成它们的时候要使用各自特有的分配器。

    分配器的总结

    在这里插入图片描述

    赋值语句内存分析

    我们可以通过使用id()函数来查看某个对象的内存地址,每个人的电脑内存地址不一样。

    a = 1
    id(a)  # Output: 4566652048
    b = 2
    id(b)    # Output: 4566652080
    
    c = 8
    id(c)  # Output: 4566652272
    d = 8
    id(d)  # Output: 4566652272
    

    使用 ==来查看对象的值是否相等,is判断对象是否是同一个对象

    c == d  # Output: True
    c is d  # Output: True
    
    e = 888888888
    id(e)  # Output: 4569828784
    f = 888888888
    id(f)  # Output: 4569828880
    e == f  # Output: True
    e is f  # Output: False
    

    解释:我们可以看到,

    • c == d输出 True 和 c is d也输出True,这是因为,对一个小一点的int变量赋值,Python在内存池(Pool)中分配给c和d同一块内存地址,
    • e == f为 True,值相同;e is f输出 False,并不少同一个对象。

    这是因为Python内存池中分配空间,赋予对象的类别并赋予其初始的值。从-5到256这些小的整数,在Python脚本中使用的非常频繁,又因为他们是不可更改的,因此只创建一次,重复使用就可以了。

    e 和 f数字比较大,所以只能重新分配地址来。其实-5到256之间的数字,Python都已经给我安排好了。

    >>> i = 256
    >>> j = 256
    >>> i is j
    True
    >>> i = 257
    >>> j = 257
    >>> i is j
    False
    >>> i = -5
    >>> j = -5
    >>> i is j
    True
    >>> i = -6
    >>> j = -6
    >>> i is j
    False
    

    Java 也有这样的机制 缓存范围是 -128 ~ 127
    ** Cache to support the object identity semantics of autoboxing for values between*
    ** -128 and 127 (inclusive) as required by JLS.*

    接着,看对象的内存分析:

    li1 = []
    li2 = []
    li1 == li2  # Output: True
    li1 is li2  # Output: False
    
    x = 1
    y = x
    id(x)  # Output: 4566652048
    id(y)  # Output: 4566652048
    y = 2
    id(y)  # Output: 4566652080
    
    x == y  # Output: False
    x is y  # Output: False
    

    文章有参考:

    1. 对内存管理有兴趣的强烈推荐阅读: Memory Management in Python
    2. 垃圾回收机制的算法与实现

    相关文章

      网友评论

        本文标题:深入理解Python内存管理与垃圾回收,再也不怕问了(一)

        本文链接:https://www.haomeiwen.com/subject/cozswhtx.html