linux内核地址空间从哪里开始_为什么linux操作系统内核在虚拟地址空间的3GB处

『壹』 linux 内核从哪个阶段开始使用虚拟地址的

一般是在kernel/head_32.S文件，early_init之后，会调用relocate_kernel，重定向，KERNELBASE为内核的虚拟起始地址，接着trun_on_mmu中，跳转到start_here，然后就是虚拟地址了。

『贰』 linux kernel 内存管理-页表、TLB

页表用来把虚拟页映射到物理页，并且存放页的保护位(即访问权限)。
在Linux4.11版本以前，Linux内核把页表分为4级：
页全局目录表(PGD)、页上层目录(PUD)、页中间目录(PMD)、直接页表(PT) 。
4.11版本把页表扩展到5级，在页全局目录和页上层目录之间增加了 页四级目录(P4D) 。
各处处理器架构可以选择使用5级，4级，3级或者2级页表，同一种处理器在页长度不同的情况可能选择不同的页表级数。可以使用配置宏CONFIG_PGTABLE_LEVELS配置页表的级数，一般使用默认值。
如果选择4级页表，那么使用PGD，PUD，PMD，PT；如果使用3级页表，那么使用PGD，PMD，PT；如果选择2级页表，那么使用PGD和PT。 如果不使用页中间目录 ，那么内核模拟页中间目录，调用函数pmd_offset 根据页上层目录表项和虚拟地址获取页中间目录表项时， 直接把页上层目录表项指针强制转换成页中间目录表项 。

每个进程有独立的页表，进程的mm_struct实例的成员pgd指向页全局目录,前面四级页表的表项存放下一级页表的起始地址，直接页表的页表项存放页帧号(PFN) 。
内核也有一个页表， 0号内核线程的进程描述符init_task的成员active_mm指向内存描述符init_mm，内存描述符init_mm的成员pgd指向内核的页全局目录swapper_pg_dir 。

ARM64处理器把页表称为转换表，最多4级。ARM64处理器支持三种页长度：4KB，16KB，64KB。页长度和虚拟地址的宽度决定了转换表的级数，在虚拟地址的宽度为48位的条件下，页长度和转换表级数的关系如下所示：

ARM64处理器把表项称为描述符，使用64位的长描述符格式。描述符的0bit指示描述符是不是有效的：0表示无效，1表示有效。第1位指定描述符类型。
在块描述符和页描述符中，内存属性被拆分为一个高属性和一个低属性块。

处理器的MMU负责把虚拟地址转换成物理地址，为了改进虚拟地址到物理地址的转换速度，避免每次转换都需要查询内存中的页表，处理器厂商在管理单元里加了称为TLB的高速缓存，TLB直译为转换后备缓冲区，意译为页表缓存。
页表缓存用来缓存最近使用过的页表项， 有些处理器使用两级页表缓存 ： 第一级TLB分为指令TLB和数据TLB，好处是取指令和取数据可以并行；第二级TLB是统一TLB，即指令和数据共用的TLB 。

不同处理器架构的TLB表项的格式不同。ARM64处理器的每条TLB表项不仅包含虚拟地址和物理地址，也包含属性：内存类型、缓存策略、访问权限、地址空间标识符(ASID)和虚拟机标识符(VMID)。 地址空间标识符区分不同进程的页表项 ， 虚拟机标识符区分不同虚拟机的页表项 。

如果内核修改了可能缓存在TLB里面的页表项，那么内核必须负责使旧的TLB表项失效，内核定义了每种处理器架构必须实现的函数。

当TLB没有命中的时候，ARM64处理器的MMU自动遍历内存中的页表，把页表项复制到TLB，不需要软件把页表项写到TLB，所以ARM64架构没有提供写TLB的指令。

为了减少在进程切换时清空页表缓存的需要，ARM64处理器的页表缓存使用非全局位区分内核和进程的页表项(nG位为0表示内核的页表项)， 使用地址空间标识符(ASID)区分不同进程的页表项 。
ARM64处理器的ASID长度是由具体实现定义的，可以选择8位或者16位。寄存器TTBR0_EL1或者TTBR1_EL1都可以用来存放当前进程的ASID，通常使用寄存器TCR_EL1的A1位决定使用哪个寄存器存放当前进程的ASID，通常使用寄存器 TTBR0_EL1 。寄存器TTBR0_EL1的位[63:48]或者[63:56]存放当前进程的ASID，位[47:1]存放当前进程的页全局目录的物理地址。
在SMP系统中，ARM64架构要求ASID在处理器的所有核是唯一的。假设ASID为8位，ASID只有256个值，其中0是保留值，可分配的ASID范围1~255，进程的数量可能超过255，两个进程的ASID可能相同，内核引入ASID版本号解决这个问题。
(1)每个进程有一个64位的软件ASID， 低8位存放硬件ASID，高56位存放ASID版本号 。
(2) 64位全局变量asid_generation的高56位保存全局ASID版本号 。
(3) 当进程被调度时，比较进程的ASID版本号和全局版本号 。如果版本号相同，那么直接使用上次分配的ASID，否则需要给进程重新分配硬件ASID。
存在空闲ASID，那么选择一个分配给进程。不存在空闲ASID时，把全局ASID版本号加1，重新从1开始分配硬件ASID，即硬件ASID从255回绕到1。因为刚分配的硬件ASID可能和某个进程的ASID相同，只是ASID版本号不同，页表缓存可能包含了这个进程的页表项，所以必须把所有处理器的页表缓存清空。
引入ASID版本号的好处是：避免每次进程切换都需要清空页表缓存，只需要在硬件ASID回环时把处理器的页表缓存清空 。

虚拟机里面运行的客户操作系统的虚拟地址转物理地址分两个阶段：
(1) 把虚拟地址转换成中间物理地址，由客户操作系统的内核控制 ，和非虚拟化的转换过程相同。
(2) 把中间物理地址转换成物理地址，由虚拟机监控器控制 ，虚拟机监控器为每个虚拟机维护一个转换表，分配一个虚拟机标识符，寄存器 VTTBR_EL2 存放当前虚拟机的阶段2转换表的物理地址。
每个虚拟机有独立的ASID空间 ，页表缓存使用 虚拟机标识符 区分不同虚拟机的转换表项，避免每次虚拟机切换都要清空页表缓存，在虚拟机标识符回绕时把处理器的页表缓存清空。

『叁』 Linux 怎么获得分配内存的起始地址

Linux内核运行在X86机器的物理内存管理使用简单平坦内存模型，每个用户进程内存(虚拟内存)地址范围为从0到TASK_SIZE字节，超过此内存的限制不能被用户访问。用户进程被分为几个逻辑段，成为虚拟内存区域，内核跟踪和管理用户进程的虚拟内存区域提供适当的内存管理和内存保护处理。 do_brk()是一个内核函数，用于间接调用管理进程的内存堆的增加和缩减 (brk)，它是一个mmap(2)系统调用的简化版本，只处理匿名映射(如未初始化数据)。 do_brk()改变进程的地址空间。地址是代表数据段结束的一个指针(事实上是进程的堆区域)。 do_brk()的参数是一个绝对逻辑地址，这个地址代表地址空间新的结尾。更实际地说，我们在编写用户程序的时候从来就不应该使用这个函数。使用这个函数的用户程序就不能再使用malloc()，这是一个大问题，因为标注库的许多部分依赖于malloc()。如果在用户程序中使用do_brk()可能会导致难以发现的程序崩溃。 do_brk(addr, len)函数给从addr到addr+len建立虚拟内存区vm_area_struct(该区的起始地址为addr；结束地址为addr+len),该虚拟内存区作为进程的堆来使用。 malloc将从此区域获取内存空间(虚拟内存), free()将会把malloc()获取的虚拟空间释放掉(归还到该进程的堆的空闲空间中去)

『肆』详解Linux系统内存知识及调优方案

内存是计算机中重要的部件之一，它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的，因此内存的性能对计算机的影响非常大。内存作用是用于暂时存放CPU中的运算数据，以及与硬盘等外部存储器交换的数据。只要计算机在运行中，CPU就会把需要运算的数据调到内存中进行运算，当运算完成后CPU再将结果传送出来，内存的运行也决定了计算机的稳定运行。对于整个操作系统来说，内存可能是最麻烦的的设备。而其性能的好坏直接影响着整个操作系统。

我们知道CPU是不能与硬盘打交道的，只有数据被载入到内存中才可以被CPU调用。cpu在访问内存的时候需要先像内存监控程序请求，由监控程序控制和分配内存的读写请求，这个监控程序叫做MMU(内存管理单元)。下面以32位系统来说明内存的访问过程：

32位的系统上每一个进程在访问内存的时候，每一个进程都当做自己有4个G的内存空间可用，这叫虚拟内存(地址)，虚拟内存转化成物理内存是通过MMU来完成的。为了能够从线性地址转换成物理地址，需要page table(页表)的内存空间,page table要载入到MMU上。为了完成线性地址到物理地址的映射，如果按照1个字节1个字节映射的话，需要一张非常大的表，这种转换关系会非常的复杂。因此把内存空间又划分成了另外一种存储单元格式，通常为4K。在不同的硬件平台上，它们的大小一般是不一样的，像x86 32位的有4k的页;而64位的有4k页，2M页，4M页，8M页等等，默认都是4k的。每一个进程一般而言都有自己的页路径和页表映射机制，不管那一个页表都是由内核加载的。每一个进程只能看到自己的线性地址空间，想要增加新的内存的时候，只能在自己的线性地址空间中申请，并且申请后一定是通过操作系统的内核映射到物理地址空间中去找那么一段空间，并且告诉线性地址空间准备好了，可以访问，并且在page table中增加一条映射关系，于是就可以访问物理内存了，这种叫做内存分配。但是新的申请一定是通过操作的内核到物理内存中去找那么一段空间，并且告诉线性地址空间好了，可以建设映射关系，最终page table建立映射关系。

这反映了上述描述过程的大体情况。可以看到每一个用户程序都会有自己的页表，并且映射到对应的主存储器上去。

根据上述文字和图表的描述可以发现2个问题：

1.每个进程如果需要访问内存的时候都需要去查找page table的话，势必会造成服务器的性能底下

2.如果主存储器的内存满了以后，应用程序还需要调用内存的时候怎么办

对于第一个问题，我们就需要借助TLB(Translation Lookaside Buffer)翻译后备缓冲器。TLB是一个内存管理单元，它可以用于改进虚拟地址到物理地址转换速度的缓存。这样每次在查找page table的时候就可以先去TLB中查找相应的页表数据，如果有就直接返回，没有再去查找page table，并把查找到的结果缓存中TLB中。TLB虽然解决了缓存的功能，但是在那么page table中查找映射关系仍然很慢，所以又有了page table的分级目录。page table可以分为1级目录，2级目录和偏移量

但是一个进程在运行的时候要频繁的打开文件，关闭文件。这就意味着要频繁的申请内存和释放内存。有些能够在内存中缓存数据的那些进程，他们对内存的分配和回收更多，那么每一次分配都会在页表中建立一个对应项。所以，就算内存的速度很快，大量频繁的同一时间分配和释放内存，依然会降低服务器的整体性能。当然内存空间不够用的时候，我们称为oom(out of memory,内存耗尽)。当内存耗尽的时候，，整个操作系统挂了。这种情况下我们可以考虑交换分区，交换分区毕竟是由硬盘虚拟出来的内存，所以其性能与真正的内存相比，差了很多，所以要尽力避免使用交换分区。有物理内存空间的时候尽量保证全部使用物理内存。cpu无论如何是不能给交换内存打交道的，它也只能给物理内存打交道，能寻址的空间也只能是物理内存。所以当真正物理内存空间不够用的时候，会通过LRU算法把其中最近最少使用的内存放到交换内存中去，这样物理内存中的那段空间就可以供新的程序使用了。但是这样会引发另外的一个问题，即原来的进程通过page table寻找的时候，那一段空间的数据已经不属于它了。所以此刻cpu发送通知或者异常告诉这个程序，这个地址空间已不属于它，这个时候可能会出现2种情况：

1.物理内存有可用的空间可用：这个时候cpu会根据以前的转换策略会把交换分区中的那段内存重新送到物理内存中去，但是转换过来的空间地址不一定会是以前的那一段空间地址，因为以前的那一段空间地址可能已经被别人使用了。

2.物理内存没有可用的空间可用：这个时候依然会使用LRU算发把当前物理地址空间上最近最少使用的空间地址转换到交换内存中去，并把当前进程需要的这断在交换空间中的内存送到物理内存空间中去，并且重新建立映射关系。

上述通知或者异常出现的情况，通常叫做缺页异常。缺页异常也分为大异常和小异常两种。大异常就是访问的数据内存中没有，不的不去硬盘上加载，无论是从交换内存中还是直接从磁盘的某个文件系统上，反正需要从硬盘上去加载，这种异常加载需要很长时间。小异常就是进程之间通过共享内存，第二个进程访问的时候，查看本地的内存映射表没有，但是其它进程已经拥有了这个内存页，所以可以直接映射，这种异常加载需要的时间一般很短。

在操作系统开机的时候，每一个io设备都会像cpu申请一些列的随机端口，这种端口叫做io端口。在IBM PC体系结构中，I/O地址空间一共提供了65,536个8位的I/O端口。正是这些io端口的存在，cpu可以与io设备进行读写交互的过程。在执行读写操作时，CPU使用地址总线选择所请求的I/O端口，使用数据总线在CPU寄存器和端口之间传送数据。I/O端口还可以被映射到物理地址空间：因此，处理器和I/O设备之间的通信就可以直接使用对内存进行操作的汇编语言指令(例如，mov、and、or等等)。现代的硬件设备更倾向于映射I/O，因为这样处理的速度较快，并可以和DMA结合起来使用。这样io在和内存传数据的时候就不需要通过cpu，cpu把总线的控制权交给DMA，每次io传数据的时候就调用DMA一次，就把cpu给解放了出来。当数据传输完了以后，DMA通知给cpu中断一次。DMA在运行的时候对整个总线有控制权限，当cpu发现有其它进程需要使用总线的时候，二者就会产生争用。这个时候，在总线控制权的使用上，CPU和DMA具有相等的权限。只要CPU委托给了DMA，就不能随意的收回这个委托，就要等待DMA的用完。

如果没有其它进程可以运行，或者其它进程运行的时间非常短，这个时候CPU发现我们的IO仍然没有完成，那就意味着，CPU只能等待IO了。CPU在时间分配里面有个iowait的值，就是CPU在等待IO花费的时间。有些是在同步调用过程中，CPU必须要等待IO的完成;否者CPU可以释放IO的传输在背后自动完成，CPU自己去处理其它的事情。等硬盘数据传输完成以后，硬盘只需要像CPU发起一个通知即可。CPU外围有一种设备，这个设备叫做可编程中断控制器。每一个硬件设备为了给CPU通信，在刚开机的时候，在BIOS实现检测的时候，这个设备就要到可编程中断控制器上去注册一个所谓的中断号。那么这个号码就归这个硬件使用了。当前主机上可能有多个硬件，每一个硬件都有自己的号码，CPU在收到中断号以后，就能够通过中断相量表查找到那个硬件设备进行中断。并且就由对应的IO端口过来处理了。

CPU正在运行其它进程，当一个中断请求发过来的时候，CPU会立即终止当前正在处理的进程，而去处理中断。当前CPU挂起当前正在处理的进程，转而去执行中断的过程，也叫做中断切换。只不过，这种切换在量级别上比进程切换要低一些，而且任何中断的优先级通常比任何进程也要高，因为我们指的是硬件中断。中断还分为上半部和下半部，一般而言，上半部就是CPU在处理的时候，把它接进来，放到内存中，如果这个事情不是特别紧急(CPU或者内核会自己判断)，因此在这种情况下，CPU回到现场继续执行刚才挂起的进程，当这个进程处理完了，再回过头来执行中断的下半部分。

在32位系统中，我们的内存(线性地址)地址空间中，一般而言，低地址空间有一个G是给内核使用的，上面3个G是给进程使用的。但是应该明白，其实在内核内存当中，再往下，不是直接这样划分的。32位系统和64位系统可能不一样(物理地址)，在32位系统中，最低端有那么10多M的空间是给DMA使用的。DNA的总线宽度是很小的，可能只有几位，所以寻址能力很有限，访问的内存空间也就很有限。如果DMA需要复制数据，而且自己能够寻址物理内存，还可以把数据直接壮哉进内存中去，那么就必须保证DMA能够寻址那段内存才行。寻址的前提就是把最低地址断M，DA的寻址范围内的那一段给了DMA。所以站在这个角度来说，我们的内存管理是分区域的。

在32位系统上，16M的内存空间给了ZONE_DMA(DMA使用的物理地址空间);从16M到896M给了ZONE_NORMAL(正常物理地址空间)，对于Linux操作系统来说，是内核可以直接访问的地址空间;从896M到1G这断空间叫做"Reserved"(预留的物理地址空间);从1G到4G的这段物理地址空间中，我们的内核是不能直接访问的，要想访问必须把其中的一段内容映射到Reserved来，在Reserved中保留出那一段内存的地址编码，我们内核才能上去访问，所以内核不直接访问大于1G的物理地址空间。所以在32位系统上，它访问内存当中的数据，中间是需要一个额外步骤的。

在64位系统上，ZONE_DAM给了低端的1G地址空间，这个时候DMA的寻址能力被大大加强了;ZONE_DAM32可以使用4G的空间;而大于1G以上给划分了ZONE_NORMAL,这段空间都可以被内核直接访问。所以在64位上，内核访问大于1G的内存地址，就不需要额外的步骤了，效率和性能上也大大增加，这也就是为什么要使用64位系统的原因。

在现在的PC架构上，AMD,INTER都支持一种机制，叫做PEA(物理地址扩展)。所谓PAE。指的是在32位系统的地址总线上，又扩展了4位，使得32位系统上的地址空间可以达到64G。当然在32为系统上，不管你的物理内存有多大，单个进程所使用的空间是无法扩展的。因为在32位的系统上，线性地址空间只有4个G，而单个进程能够识别的访问也只有3个G。

linux的虚拟内存子系统包含了以下几个功能模块：

slab allocator,zoned buddy allocator,MMU,kswapd,bdflush

slab allocator叫做slab分配器

buddy allocator又叫做buddy system，叫做伙伴系统，也是一种内存分配器

buddy system是工作在MMU之上的，而slab allocator又是工作在buddy system之上的。

设置为小于等于1G，在数据库服务器应该劲量避免使用交换内存

3.在应用服务器上，可以设置为RAM*0.5，当然这个是理论值

如果不的不使用交换内存，应该把交换内存放到最靠外的磁道分区上，因为最外边的磁盘的访问速度最快。所以如果有多块硬盘，可以把每块硬盘的最外层的磁道拿一小部分出来作为交换分区。交换分区可以定义优先级，因此把这些硬盘的交换内存的优先级设置为一样，可以实现负载均衡的效果。定义交换分区优先级的方法为编辑/etc/fstab：

/dev/sda1 swap swap pri=5 0 0

/dev/sdb1 swap swap pri=5 0 0

/dev/sdc1 swap swap pri=5 0 0

/dev/sdd1 swap swap pri=5 0 0

四.内存耗尽时候的相关调优参数

当Linux内存耗尽的时候，它会杀死那些占用内存最多的进程，以下三种情况会杀死进程：

1.所有的进程都是活动进程，这个时候想交换出去都没有空闲的进程

2.没有可用的page页在ZONE_NORMAL中

3.有其它新进程启动，申请内存空间的时候，要找一个空闲内存给做映射，但是这个时候找不到了

一旦内存耗尽的时候，操作系统就会启用oom-kill机制。

在/proc/PID/目录下有一个文件叫做oom_score,就是用来指定oom的评分的，就是坏蛋指数。

如果要手动启用oom-kill机制的话，只需要执行echo f>/proc/sysrq-trigger即可，它会自动杀掉我们指定的坏蛋指数评分最高的那个进程

可以通过echo n > /proc/PID/oom_adj来调整一个进程的坏蛋评分指数。最终的评分指数就是2的oom_adj的值的N次方。假如我们的一个进程的oom_adj的值是5，那么它的坏蛋评分指数就是2的5次方。

如果想禁止oom-kill功能的使用可以使用vm.panic_on_oom=1即可。

五.与容量有关的内存调优参数：

overcommit_memory,可用参数有3个，规定是否能够过量使用内存：

0：默认设置，内核执行启发式的过量使用处理

1：内核执行无内存的过量使用处理。使用这个值会增大内存超载的可能性

2：内存的使用量等于swap的大小+RAM*overcommit_ratio的值。如果希望减小内存的过度使用，这个值是最安全的

overcommit_ratio:将overcommit_memory指定为2时候，提供的物理RAM比例，默认为50

六.与通信相关的调优参数

常见在同一个主机中进行进程间通信的方式：

1.通过消息message;2.通过signal信号量进行通信;3.通过共享内存进行通信，跨主机常见的通信方式是rpc

以消息的方式实现进程通信的调优方案：

msgmax:以字节为单位规定消息队列中任意消息的最大允许大小。这个值一定不能超过该队列的大小(msgmnb)，默认值为65536

msgmnb:以字节为单位规定单一消息队列的最大值(最大长度)。默认为65536字节

msgmni:规定消息队列识别符的最大数量(及队列的最大数量)。64位架构机器的默认值为1985;32位架构机器的默认值为1736

以共享内存方式实现进程通信的调优方案：

shmall:以字节为单位规定一次在该系统中可以使用的共享内存总量(单次申请的上限)

shmmax:以字节为单位规定每一个共享内存片段的最大大小

shmmni:规定系统范围内最大共享内存片段。在64和32位的系统上默认值都是4096

七.与容量相关的文件系统可调优参数：

file-max:列出内核分配的文件句柄的最大值

dirty_ratio:规定百分比值，当脏数据达到系统内存总数的这个百分比值后开始执行pdflush,默认为20

dirty_background_ratio:规定百分比值，当某一个进程自己所占用的脏页比例达到系统内存总数的这个百分比值后开始在后台执行pdflush，默认为10

dirty_expire_centisecs:pdlush每隔百分之一秒的时间开启起来刷新脏页，默认值为3000，所以每隔30秒起来开始刷新脏页

dirty_writeback_centisecs:每隔百分之一秒开始刷新单个脏页。默认值为500，所以一个脏页的存在时间达到了5秒，就开始刷新脏

八.linux内存常用的观察指标命令：

Memory activity

vmstat [interval] [count]

sar -r [interval] [count]

Rate of change in memory

sar -R [interval] [count]

frmpg/s:每秒释放或者分配的内存页，如果为正数，则为释放的内存页;如果为负数，则为分配的内存页

bufpg/s:每秒buffer中获得或者释放的内存页。如果为正数则为获得的内存页，为负数。则为释放的内存页

campg/s:每秒cache中获得或者释放的内存页。如果为正数则为获得的内存页，为负数。则为释放的内存页

Swap activity

sar -W [interval] [count]

ALL IO

sar -B [interval] [count]

pgpgin/s:每秒从磁盘写入到内核的块数量

pgpgout/s:每秒从内核写入到磁盘的块数量

fault/s:每秒钟出现的缺页异常的个数

majflt/s:每秒钟出现的大页异常的个数

pgfree/s:每秒回收回来的页面个数

『伍』 linux内核存放的位置是在/usr/src/kernels下还是/boot/vmlinuz下

1、是在/boot目录下
2、/usr/src目录一般是系统内核代码目录
3、你看/boot/grub/grub.conf文件，kernel那行是vmlinuz...，就版是代表内核的权名字
4、Linux是一个一体化内核（monolithic kernel）系统。“内核”指的是一个提供硬件抽象层、磁盘及文件系统控制、多任务等功能的系统软件。一个内核不是一套完整的操作系统。一套基于Linux内核的完整操作系统叫作Linux操作系统，或是GNU/Linux。设备驱动程序可以完全访问硬件。Linux内的设备驱动程序可以方便地以模块化（molarize）的形式设置，并在系统运行期间可直接装载或卸载。

『陆』 Linux进程内存如何管理

Linux内存管理
摘要：本章首先以应用程序开发者的角度审视Linux的进程内存管理，在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存的使用方法。力求从外到内、水到渠成地引导网友分析Linux的内存管理与使用。在本章最后，我们给出一个内存映射的实例，帮助网友们理解内核内存管理与用户内存管理之间的关系，希望大家最终能驾驭Linux内存管理。
前言
内存管理一向是所有操作系统书籍不惜笔墨重点讨论的内容，无论市面上或是网上都充斥着大量涉及内存管理的教材和资料。因此，我们这里所要写的Linux内存管理采取避重就轻的策略，从理论层面就不去班门弄斧，贻笑大方了。我们最想做的和可能做到的是从开发者的角度谈谈对内存管理的理解，最终目的是把我们在内核开发中使用内存的经验和对Linux内存管理的认识与大家共享。
当然，这其中我们也会涉及到一些诸如段页等内存管理的基本理论，但我们的目的不是为了强调理论，而是为了指导理解开发中的实践，所以仅仅点到为止，不做深究。
遵循“理论来源于实践”的“教条”，我们先不必一下子就钻入内核里去看系统内存到底是如何管理，那样往往会让你陷入似懂非懂的窘境（我当年就犯了这个错误！）。所以最好的方式是先从外部（用户编程范畴）来观察进程如何使用内存，等到大家对内存的使用有了较直观的认识后，再深入到内核中去学习内存如何被管理等理论知识。最后再通过一个实例编程将所讲内容融会贯通。
进程与内存
进程如何使用内存？
毫无疑问，所有进程（执行的程序）都必须占用一定数量的内存，它或是用来存放从磁盘载入的程序代码，或是存放取自用户输入的数据等等。不过进程对这些内存的管理方式因内存用途不一而不尽相同，有些内存是事先静态分配和统一回收的，而有些却是按需要动态分配和回收的。
对任何一个普通进程来讲，它都会涉及到5种不同的数据段。稍有编程知识的朋友都能想到这几个数据段中包含有“程序代码段”、“程序数据段”、“程序堆栈段”等。不错，这几种数据段都在其中，但除了以上几种数据段之外，进程还另外包含两种数据段。下面我们来简单归纳一下进程对应的内存空间中所包含的5种不同的数据区。
*代码段*：代码段是用来存放可执行文件的操作指令，也就是说是它是可执行程序在内存中的镜像。代码段需要防止在运行时被非法修改，所以只准许读取操作，而不允许写入（修改）操作——它是不可写的。
*数据段*：数据段用来存放可执行文件中已初始化全局变量，换句话说就是存放程序静态分配[1]的变量和全局变量。
BSS*段<a href="https://link.segmentfault.com/?enc=DcwhqnvkYMxrvWKNSDlpjw%3D%3D.%2BTVdR37FrzpDlx30Od%2F227j%2FFcDXfhqFymFBWKvF4UA%3D%3D">*[2]**：BSS段包含了程序中未初始化的全局变量，在内存中 bss段全部置零。
堆（heap*）*：堆是用于存放进程运行中被动态分配的内存段，它的大小并不固定，可动态扩张或缩减。当进程调用malloc等函数分配内存时，新分配的内存就被动态添加到堆上（堆被扩张）；当利用free等函数释放内存时，被释放的内存从堆中被剔除（堆被缩减）
*栈*：栈是用户存放程序临时创建的局部变量，也就是说我们函数括弧“{}”中定义的变量（但不包括static声明的变量，static意味着在数据段中存放变量）。除此以外，在函数被调用时，其参数也会被压入发起调用的进程栈中，并且待到调用结束后，函数的返回值也会被存放回栈中。由于栈的先进先出特点，所以栈特别方便用来保存/恢复调用现场。从这个意义上讲，我们可以把堆栈看成一个寄存、交换临时数据的内存区。
进程如何组织这些区域？
上述几种内存区域中数据段、BSS和堆通常是被连续存储的——内存位置上是连续的，而代码段和栈往往会被独立存放。有趣的是，堆和栈两个区域关系很“暧昧”，他们一个向下“长”（i386体系结构中栈向下、堆向上），一个向上“长”，相对而生。但你不必担心他们会碰头，因为他们之间间隔很大（到底大到多少，你可以从下面的例子程序计算一下），绝少有机会能碰到一起。

『柒』 Linux 虚拟地址空间如何分布

一个进程的虚拟地址空间主要由两个数据结来描述。一个是最高层次的：mm_struct，一个是较高层次的：vm_area_structs。最高层次的mm_struct结构描述了一个进程的整个虚拟地址空间。较高层次的结构vm_area_truct描述了虚拟地址空间的一个区间（简称虚拟区）。

1. MM_STRUCT结构

mm_strcut 用来描述一个进程的虚拟地址空间，在/include/linux/sched.h 中描述如下：

struct mm_struct {

struct vm_area_struct * mmap; /* 指向虚拟区间（VMA）链表 */

rb_root_t mm_rb; ／*指向red_black树*/

struct vm_area_struct * mmap_cache; /* 指向最近找到的虚拟区间*/

pgd_t * pgd; ／*指向进程的页目录*/

atomic_t mm_users; /* 用户空间中的有多少用户*/

atomic_t mm_count; /* 对"struct mm_struct"有多少引用*/

int map_count; /* 虚拟区间的个数*/

struct rw_semaphore mmap_sem;

spinlock_t page_table_lock; /* 保护任务页表和 mm->rss */

struct list_head mmlist; /*所有活动（active）mm的链表 */

unsigned long start_code, end_code, start_data, end_data;

unsigned long start_brk, brk, start_stack;

unsigned long arg_start, arg_end, env_start, env_end;

unsigned long rss, total_vm, locked_vm;

unsigned long def_flags;

unsigned long cpu_vm_mask;

unsigned long swap_address;

unsigned mpable:1;

/* Architecture-specific MM context */

mm_context_t context;

};

对该结构进一步说明如下：

在内核代码中，指向这个数据结构的变量常常是mm。

每个进程只有一个mm_struct结构，在每个进程的task_struct结构中，有一个指向该进程的结构。可以说，mm_struct结构是对整个用户空间的描述。

一个进程的虚拟空间中可能有多个虚拟区间（参见下面对vm_area_struct描述），对这些虚拟区间的组织方式有两种，当虚拟区较少时采用单链表，由mmap指针指向这个链表，当虚拟区间多时采用“红黑树（red_black
tree）”结构，由mm_rb指向这颗树。在2.4.10以前的版本中，采用的是AVL树，因为与AVL树相比，对红黑树进行操作的效率更高。

因为程序中用到的地址常常具有局部性，因此，最近一次用到的虚拟区间很可能下一次还要用到，因此，把最近用到的虚拟区间结构应当放入高速缓存，这个虚拟区间就由mmap_cache指向。

指针pgt指向该进程的页目录（每个进程都有自己的页目录，注意同内核页目录的区别）,当调度程序调度一个程序运行时，就将这个地址转成物理地址，并写入控制寄存器（CR3）。

由于进程的虚拟空间及其下属的虚拟区间有可能在不同的上下文中受到访问，而这些访问又必须互斥，所以在该结构中设置了用于P、V操作的信号量mmap_sem。此外，page_table_lock也是为类似的目的而设置。

虽然每个进程只有一个虚拟地址空间，但这个地址空间可以被别的进程来共享，如，子进程共享父进程的地址空间（也即共享mm_struct结构）。所以，用mm_user和mm_count进行计数。类型atomic_t实际上就是整数，但对这种整数的操作必须是“原子”的。

另外，还描述了代码段、数据段、堆栈段、参数段以及环境段的起始地址和结束地址。这里的段是对程序的逻辑划分，与我们前面所描述的段机制是不同的。

mm_context_t是与平台相关的一个结构，对i386 几乎用处不大。

在后面对代码的分析中对有些域给予进一步说明。

2. VM_AREA_STRUCT 结构

vm_area_struct描述进程的一个虚拟地址区间，在/include/linux/mm.h中描述如下：

struct vm_area_struct

struct mm_struct * vm_mm; /* 虚拟区间所在的地址空间*/

unsigned long vm_start; /* 在vm_mm中的起始地址*/

unsigned long vm_end; /*在vm_mm中的结束地址 */

/* linked list of VM areas per task, sorted by address */

struct vm_area_struct *vm_next;

pgprot_t vm_page_prot; /* 对这个虚拟区间的存取权限 */

unsigned long vm_flags; /* 虚拟区间的标志. */

rb_node_t vm_rb;

/*

* For areas with an address space and backing store,

* one of the address_space->i_mmap{,shared} lists,

* for shm areas, the list of attaches, otherwise unused.

*/

struct vm_area_struct *vm_next_share;

struct vm_area_struct **vm_pprev_share;

/*对这个区间进行操作的函数 */

struct vm_operations_struct * vm_ops;

/* Information about our backing store: */

unsigned long vm_pgoff; /* Offset (within vm_file) in PAGE_SIZE

units, *not* PAGE_CACHE_SIZE */

struct file * vm_file; /* File we map to (can be NULL). */

unsigned long vm_raend; /* XXX: put full readahead info here. */

void * vm_private_data; /* was vm_pte (shared mem) */

};

vm_flag是描述对虚拟区间的操作的标志，其定义和描述如下

标志名描述

VM_DENYWRITE 在这个区间映射一个打开后不能用来写的文件。

VM_EXEC 页可以被执行。

VM_EXECUTABLE 页含有可执行代码。

VM_GROWSDOWN 这个区间可以向低地址扩展。

VM_GROWSUP 这个区间可以向高地址扩展。

VM_IO 这个区间映射一个设备的I/O地址空间。

VM_LOCKED 页被锁住不能被交换出去。

VM_MAYEXEC VM_EXEC 标志可以被设置。

VM_MAYREAD VM_READ 标志可以被设置。

VM_MAYSHARE VM_SHARE 标志可以被设置。

VM_MAYWRITE VM_WRITE 标志可以被设置。

VM_READ 页是可读的。

VM_SHARED 页可以被多个进程共享。

VM_SHM 页用于IPC共享内存。
VM_WRITE 页是可写的。

较高层次的结构vm_area_structs是由双向链表连接起来的，它们是按虚地址的降顺序来排列的，每个这样的结构都对应描述一个相邻的地址空间范围。之所以这样分割，是因为每个虚拟区间可能来源不同，有的可能来自可执行映象，有的可能来自共享库，而有的则可能是动态分配的内存区，所以对每一个由vm_area_structs结构所描述的区间的处理操作和它前后范围的处理操作不同。因此Linux
把虚拟内存分割管理，并利用了虚拟内存处理例程（vm_ops）来抽象对不同来源虚拟内存的处理方法。不同的虚拟区间其处理操作可能不同，Linux在这里利用了面向对象的思想，即把一个虚拟区间看成一个对象，用vm_area_structs描述了这个对象的属性，其中的vm_operation结构描述了在这个对象上的操作，其定义在／include／linux／mm.h中：

/*

* These are the virtual MM functions - opening of an area, closing and

* unmapping it (needed to keep files on disk up-to-date etc), pointer

* to the functions called when a no-page or a wp-page exception occurs.

*/

struct vm_operations_struct {

void (*open)(struct vm_area_struct * area);

void (*close)(struct vm_area_struct * area);

struct page * (*nopage)(struct vm_area_struct * area, unsigned long address, int unused);

};

vm_operations结构中包含的是函数指针；其中，open、close分别用于虚拟区间的打开、关闭，而nopage用于当虚存页面不在物理内存而引起的“缺页异常”时所应该调用的函数。

3．红黑树结构

Linux内核从2.4.10开始，对虚拟区的组织不再采用AVL树，而是采用红黑树，这也是出于效率的考虑，虽然AVL树和红黑树很类似，但在插入和删除节点方面，采用红黑树的性能更好一些，下面对红黑树给予简单介绍。
一颗红黑树是具有以下特点的二叉树：
每个节点着有颜色，或者为红，或者为黑
根节点为黑色
如果一个节点为红色，那么它的子节点必须为黑色
从一个节点到叶子节点上的所有路径都包含有相同的黑色节点数

『捌』 32位程序在64位系统中的内核空间地址从哪开始

64位的linux采用4级页表，支持的最大物理内存为64T。
对于虚拟地址空间的划分，将0x0000,0000,0000,0000 – 0x0000,7fff,ffff,f000这128T地址用于用户空间；而0xffff,8000,0000,0000以上的128T为系统空间地址。

『玖』 LINUX进程的地址空间是什么时候确定的确定了，就马上分配吗为什么

所谓的地址空间是指进程的虚拟的可以寻址的空间，32b机器是4G。但是4G仅仅是个范围，其实只是很小一部分从物理内存映射/分配到进程的空间里面。真正的分配时机有很多种情况，比如进程启动在load可执行文件时，比如进程创建或者扩展堆栈时，其实这些都是OS（无论是Linux还是Windows）在内核态去实现的，application级别上是看不到的。在applicaton级别上，当你malloc一块内存时，也是分配到进程的地址空间里的。
广义上讲进程的地址空间里映射进入的“内存” 有的是在物理内存里有的其实是swap到Disk上去了，但他们都是在内存地址空间的。
地址空间的概念不是一日能搞懂的，多看些内核方面的书，Linux programming的书适合入门。

『拾』为什么linux操作系统内核在虚拟地址空间的3GB处

1：并不是所有平台都抄在3G
2：i386没有PAE，并且编译时没有特别指定的时候才在3G
3：在这种情况下，由于地址总线最大只能访问4G的空间，并且为了在切换入内核空间时不需要重新加载内核的页表，使用了一个技巧：让内核与用户空间影射到同一内存段。根据实际需要，给内核保留了1G的内存空间，并且为了让应用程序看起来是从0地址开始的，那么内核的1G内存段就占用了3G~4G的空间。这就回答了你的问题。
4：其实这种方法不是唯一的，比如，可以让内核少占用一些空间，那么就不是3G了。或者，让内核与应用程序不映射到同一个内存空间，那么用户程序可以使用几乎全部的4G空间（有些patch可以做到，但这样的话内核<->用户态切换时代价很大。说几乎4G的原因是：调用syscall时还是需要一段内存传递参数的）。

导航:首页 > 编程系统 > linux内核地址空间从哪里开始

linux内核地址空间从哪里开始

与linux内核地址空间从哪里开始相关的资料

友情链接