A Clarification on Linux Address

作者: 浪飞人海 | 来源:发表于2019-01-16 20:59 被阅读0次

A Clarification on Linux Address
linux内存映射,内存分布情况
改变MAC Address Linux
缓冲区溢出的保护机制
2021-05-11 “When you get a minut
linux bind: address already in u
Guideline 5.1.1 - Legal - Privac
Linus批评英特尔的LAM代码，拒绝将其合并到内核
bind:Address already in use解决办法
linux下ftp相关操作命令

A Clarification on Linux Addressing

本文是对文章"A Clarification on Linux Addressing" 的翻译。如有纰漏，敬请指正。

OK，以下是我个人迄今的理解，但不代表未来随着技术更迭而产生变化。

在X86 32位指令集体系架构中，最大的内存地址是4GB。这就是大家所熟知的“虚拟地址空间”，且这些地址被称作“虚拟地址”。要访问物理内存，更确切的说，访问一个物理的地址，需要对使用的虚拟地址进行段-页的计算，即所谓的“映射”过程。

                MMU
 virtual/   +----------------------+
    logical |  +----------------+  | logical is Intel terms
    ------->|  | Segmented Unit |  |
            |  +----------------+  |
            |          | linear    | 
            |  +----------------+  |
            |  | Paging Unit    |  |
            |  +----------------+  |
            |          |           |
            +----------|-----------+
                       | physical
                       |
                       v

为了访问一个物理页，则这个页必须要在进程的页表中，每个进程都有自己的页表，这些是基础的认知。

现在，有2个不易察觉的细节值得指出来：

首先，即使通常说一个进程被分配了唯一的4GB虚拟地址空间，但并不意味着进程可以在这个进程空间中“为所欲为”：如果要访问虚拟空间内部的一个特定的区域，进程必须先向Kernel请求一个可用的内存区域，相关的数据结构被称之为“vm_area_struct”或者叫 VMA。

第二点，在理论上一个进程的潜在访问能力是4GB，假设用户空间使用了libc，那么libc也会被映射到虚拟内存空间中，用户空间的应用也可以使用系统调用，这也就意味着kernel将代表这个进程工作，因此Kernel镜像也需要映射到进程的虚拟地址空间中，并且这种映射最好是永久性的，如果进程需要频繁切换到内核模式。临时的映射方案可行，但是意义不大。

综上，需要对这4GB的虚拟地址空间进行划分，依据用户和内核程序，也就是所谓的3G/1G划分，用户空间占据0-3GB ，内核空间占用3GB-4GB。

因此，在3G/1G划分中，kernel有1GB的虚拟地址空间，需要记住：要访问物理地址，需要从虚拟地址开始，包括kernel。因此，如果你不做特殊的处理，这1GB的虚拟地址空间限制了内核可以实际访问的物理地址空间在1GB以内。OK，这就引出了第3个值得关注的细节：Kernel需要能访问任意的物理内存，来充分使用这些内存。

在早期的机器的物理内存空间远远小于1GB，那么整个的物理内存都可以映射到虚拟地址空间中。

4GB +---------------+
        |     512MB     |
        +---------------+ <------+     physical memory               
        |     512MB     |        | 
    3GB +---------------+ <--+   +---> +------------+ 
        |               |    |         |   512 MB   |
        |     /////     |    +-------> +------------+
        |               |     
    0GB +---------------+

例如，物理地址{x}内映射到内核空间，虚拟地址中是{PAGE_OFFSET+x}，PAGE_OFFSET被定义为3GB。

与此相关的2个观点：

1）当所有的物理内存都能够被直接映射到虚拟地址空间时，这些相关的虚拟地址也被称作Kernel逻辑地址，这些逻辑地址可以被映射到物理地址，通过一个常量的偏移，如3GB。

2）物理地址能够被映射到虚拟地址空间的，称作“Low Memory”，相反的，不能映射的称作High Memory。在上图中，所有的512字节都是Low Memory。

也许你会说，现在的机器都有2G甚至更多的内存，那又会怎么样呢？当你想访问物理内存高于1GB，或者精确些，896MB，kernel使用128MB的虚拟地址空间来临时映射这些虚拟地址到物理地址，这样来达到访问所有的物理内存Page的目的，这里有一些细节没有说明，比如，是否会保留这个128MB的预分配区。但是这点上我认为，可以跳过这点，聚焦于关键的问题点：使用临时的mapping来访问所有的物理内存。以下图形粗略的描述了这个方案：

                                     physical mem
       process address space    +------> +------------+
                                |        |  3200 M    |
                                |        |            |
    4GB +---------------+ <-----+        |  HIGH MEM  |
        |     128 MB    |                |            |
        +---------------+ <---------+    |            |
        +---------------+ <------+  |    |            | 
        |     896 MB    |        |  +--> +------------+         
    3GB +---------------+ <--+   +-----> +------------+ 
        |               |    |           |   896 MB   |
        |     /////     |    +---------> +------------+
        |               |     
    0GB +---------------+

回到Linux的上下文中：Kmalloc()将会返回给你一块虚拟内存，是的，没错，它执行虚拟地址，但是更重要的是这也是kernel的逻辑地址，意味着它映射的是连续的物理页。vmallc是另外一个重要的kernel调用，它返回一段虚拟内存块。但是，这个虚拟内存块，仅仅只是在虚拟空间上是连续的，在物理空间中可能是不连续的。因此，实际映射到的物理页不仅可以来自于低内存，也可以是高内存，尤其是当你想要一块大内存时。

在64位架构中

在这个架构中，3G/1G的划分并不奏效，由于有巨大的内存空间，可以轻易的将用户空间和内核空间分开，且能容易地将整个物理地址映射到内核的地址空间。

C pointer address question

关于C指针的一个有趣的现象:我们可以用C打印一个指针地址。对于用户空间应用程序，如果打印定义的指针地址，那么它应该是(0-3GB)范围之外的虚拟地址之一。

内核呢?如果在内核中打印一个指针地址呢?它总是来自内核地址空间吗?答案是否定的。因为内核可以访问用户空间地址，这取决于指针，它可以来自任何一个。

如何判断它是来自内核空间还是用户空间?是的，如果陷入到0-3GB，则来自用户空间，否则来自内核。无论如何，这里的关键信息是正在看到的虚拟地址。

这样明白了么？

网友评论

本文标题：A Clarification on Linux Address

本文链接：https://www.haomeiwen.com/subject/rqevdqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

A Clarification on Linux Address