美文网首页
A Clarification on Linux Address

A Clarification on Linux Address

作者: 浪飞人海 | 来源:发表于2019-01-16 20:59 被阅读0次

A Clarification on Linux Addressing

本文是对文章"A Clarification on Linux Addressing" 的翻译。如有纰漏,敬请指正。

OK,以下是我个人迄今的理解,但不代表未来随着技术更迭而产生变化。

在X86 32位指令集体系架构中,最大的内存地址是4GB。这就是大家所熟知的“虚拟地址空间”,且这些地址被称作“虚拟地址”。要访问物理内存,更确切的说,访问一个物理的地址,需要对使用的虚拟地址进行段-页的计算,即所谓的“映射”过程。

                MMU
 virtual/   +----------------------+
    logical |  +----------------+  | logical is Intel terms
    ------->|  | Segmented Unit |  |
            |  +----------------+  |
            |          | linear    | 
            |  +----------------+  |
            |  | Paging Unit    |  |
            |  +----------------+  |
            |          |           |
            +----------|-----------+
                       | physical
                       |
                       v

为了访问一个物理页,则这个页必须要在进程的页表中,每个进程都有自己的页表,这些是基础的认知。

现在,有2个不易察觉的细节值得指出来:

首先,即使通常说一个进程被分配了唯一的4GB虚拟地址空间,但并不意味着进程可以在这个进程空间中“为所欲为”:如果要访问虚拟空间内部的一个特定的区域,进程必须先向Kernel请求一个可用的内存区域,相关的数据结构被称之为“vm_area_struct”或者叫 VMA。

第二点,在理论上一个进程的潜在访问能力是4GB,假设用户空间使用了libc,那么libc也会被映射到虚拟内存空间中,用户空间的应用也可以使用系统调用,这也就意味着kernel将代表这个进程工作,因此Kernel镜像也需要映射到进程的虚拟地址空间中,并且这种映射最好是永久性的,如果进程需要频繁切换到内核模式。临时的映射方案可行,但是意义不大。

综上,需要对这4GB的虚拟地址空间进行划分,依据用户和内核程序,也就是所谓的3G/1G划分,用户空间占据0-3GB ,内核空间占用3GB-4GB。

因此,在3G/1G划分中,kernel有1GB的虚拟地址空间,需要记住:要访问物理地址,需要从虚拟地址开始,包括kernel。因此,如果你不做特殊的处理,这1GB的虚拟地址空间限制了内核可以实际访问的物理地址空间在1GB以内。OK,这就引出了第3个值得关注的细节:Kernel需要能访问任意的物理内存,来充分使用这些内存。

在早期的机器的物理内存空间远远小于1GB,那么整个的物理内存都可以映射到虚拟地址空间中。

4GB +---------------+
        |     512MB     |
        +---------------+ <------+     physical memory               
        |     512MB     |        | 
    3GB +---------------+ <--+   +---> +------------+ 
        |               |    |         |   512 MB   |
        |     /////     |    +-------> +------------+
        |               |     
    0GB +---------------+

例如,物理地址{x}内映射到内核空间,虚拟地址中是{PAGE_OFFSET+x},PAGE_OFFSET被定义为3GB。

与此相关的2个观点:

1)当所有的物理内存都能够被直接映射到虚拟地址空间时,这些相关的虚拟地址也被称作Kernel逻辑地址,这些逻辑地址可以被映射到物理地址,通过一个常量的偏移,如3GB。

2)物理地址能够被映射到虚拟地址空间的,称作“Low Memory”,相反的,不能映射的称作High Memory。在上图中,所有的512字节都是Low Memory。

也许你会说,现在的机器都有2G甚至更多的内存,那又会怎么样呢?当你想访问物理内存高于1GB,或者精确些,896MB,kernel使用128MB的虚拟地址空间来临时映射这些虚拟地址到物理地址,这样来达到访问所有的物理内存Page的目的,这里有一些细节没有说明,比如,是否会保留这个128MB的预分配区。但是这点上我认为,可以跳过这点,聚焦于关键的问题点:使用临时的mapping来访问所有的物理内存。以下图形粗略的描述了这个方案:

                                     physical mem
       process address space    +------> +------------+
                                |        |  3200 M    |
                                |        |            |
    4GB +---------------+ <-----+        |  HIGH MEM  |
        |     128 MB    |                |            |
        +---------------+ <---------+    |            |
        +---------------+ <------+  |    |            | 
        |     896 MB    |        |  +--> +------------+         
    3GB +---------------+ <--+   +-----> +------------+ 
        |               |    |           |   896 MB   |
        |     /////     |    +---------> +------------+
        |               |     
    0GB +---------------+

回到Linux的上下文中:Kmalloc()将会返回给你一块虚拟内存,是的,没错,它执行虚拟地址,但是更重要的是这也是kernel的逻辑地址,意味着它映射的是连续的物理页。vmallc是另外一个重要的kernel调用,它返回一段虚拟内存块。但是,这个虚拟内存块,仅仅只是在虚拟空间上是连续的,在物理空间中可能是不连续的。因此,实际映射到的物理页不仅可以来自于低内存,也可以是高内存,尤其是当你想要一块大内存时。

在64位架构中

在这个架构中,3G/1G的划分并不奏效,由于有巨大的内存空间,可以轻易的将用户空间和内核空间分开,且能容易地将整个物理地址映射到内核的地址空间。

C pointer address question

关于C指针的一个有趣的现象:我们可以用C打印一个指针地址。对于用户空间应用程序,如果打印定义的指针地址,那么它应该是(0-3GB)范围之外的虚拟地址之一。

内核呢?如果在内核中打印一个指针地址呢?它总是来自内核地址空间吗?答案是否定的。因为内核可以访问用户空间地址,这取决于指针,它可以来自任何一个。

如何判断它是来自内核空间还是用户空间?是的,如果陷入到0-3GB,则来自用户空间,否则来自内核。无论如何,这里的关键信息是正在看到的虚拟地址。

这样明白了么?

相关文章

网友评论

      本文标题:A Clarification on Linux Address

      本文链接:https://www.haomeiwen.com/subject/rqevdqtx.html