linuxsmp内存_linux内核主要由哪几个部分组成

① linux上MySQL优化提升性能，哪些可以优化关闭NUMA特性

Linux上MySQL优化提升性能，可以优化关闭NUMA特性如下：

这些其实都源于CPU最新的技术：节能模式。操作系统和CPU硬件配合，系统不繁忙的时候，为了节约电能和降低温度，它会将CPU降频。

为了保证MySQL能够充分利用CPU的资源，建议设置CPU为最大性能模式。这个设置可以在BIOS和操作系统中设置，当然，在BIOS中设置该选项更好，更彻底。

然后我们看看内存方面，我们有哪些可以优化的。

i) 我们先看看numa

非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) 也是最新的内存管理技术。它和对称多处理器结构 (SMP ： Symmetric Multi-Processor) 是对应的。

我们可以直观的看到：SMP访问内存的都是代价都是一样的;但是在NUMA架构下，本地内存的访问和非本地内存的访问代价是不一样的。对应的根据这个特性，操作系统上，我们可以设置进程的内存分配方式。目前支持的方式包括：

--interleave=nodes

--membind=nodes

--cpunodebind=nodes

--physcpubind=cpus

--localalloc

--preferred=node

简而言之，就是说，你可以指定内存在本地分配，在某几个CPU节点分配或者轮询分配。除非是设置为--interleave=nodes轮询分配方式，即内存可以在任意NUMA节点上分配这种方式以外。其他的方式就算其他NUMA节点上还有内存剩余，Linux也不会把剩余的内存分配给这个进程，而是采用SWAP的方式来获得内存。

所以最简单的方法，还是关闭掉这个特性。

关闭特性的方法，分别有：可以从BIOS，操作系统，启动进程时临时关闭这个特性。

a) 由于各种BIOS类型的区别，如何关闭NUMA千差万别，我们这里就不具体展示怎么设置了。

b) 在操作系统中关闭，可以直接在/etc/grub.conf的kernel行最后添加numa=off，如下所示：

kernel /vmlinuz-2.6.32-220.el6.x86_64 ro root=/dev/mapper/VolGroup-root rd_NO_LUKS.UTF-8 rd_LVM_LV=VolGroup/root rd_NO_MD quiet SYSFONT=latarcyrheb-sun16 rhgb crashkernel=auto rd_LVM_LV=VolGroup/swap rhgb crashkernel=auto quiet KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM numa=off

另外可以设置 vm.zone_reclaim_mode=0尽量回收内存。

c) 启动MySQL的时候，关闭NUMA特性：

numactl --interleave=all mysqld

当然，最好的方式是在BIOS中关闭。

ii) 我们再看看vm.swappiness。

vm.swappiness是操作系统控制物理内存交换出去的策略。它允许的值是一个百分比的值，最小为0，最大运行100，该值默认为60。vm.swappiness设置为0表示尽量少swap，100表示尽量将inactive的内存页交换出去。

具体的说：当内存基本用满的时候，系统会根据这个参数来判断是把内存中很少用到的inactive 内存交换出去，还是释放数据的cache。

② linux系统增加内存

为什么free -m和-g显示的不一样?
m是MB g是GB
没有到1那就是0，命令是这么设计的。。。

你的内存确定加进去了？回拆机看看吧，是答否兼容。系统是否支持8g得看硬件设备是否兼容，和系统没毛线关系！

③ linux虚拟内存有什么作用

linux下的vm(虚拟内存)和windows下的作用是一样的,均是防止真实内存资源不足准备的.
linux的vm相关参数介绍

1. 保证linux有足够的物理内存，可以调整vm的如下参数

vm.min_free_kbytes=409600;//默认值是3797，保证物理内存有足够空闲空间，防止突发性换页

vm.vfs_cache_pressure=200；//默认是100，增大这个参数设置了虚拟内存回收directory和i-node缓冲的倾向，这个值越大。越易回收

vm.swappiness=40 //缺省60，减少这个参数会使系统尽快通过swapout不使用的进程资源来释放更多的物理内存

一般在rac的配置环境中配置这三个参数，可以防止换页引起节点短暂无响应，导致节点重启

2. 改善io系统的性能

overcommit_memory = 0
vm.overcommit_ratio = 10 //默认值是50，用于虚拟内存的物理内存的百分比

vm.dirty_ratio = 20 //默认值是40，为了保持稳定，持续的写入，把这个值调整的小一些，经验值是20

vm.dirty_background_ratio //缺省数值是500，也就是5秒,如果系统要求稳定持续的写，可以适当降低该值，把峰值的写操作平均多次，也避免宕机丢失更多的数据

vm.dirty_expire_centisecs //缺省是3000，也就是30秒,如果系统写操作压力很大，可以适当减小该值，但也不要太小；建议设置为 1500

vm的相关参数在/proc/sys目录下

相关命令

sysctl -p //修改vm参数后，运行这个命令可以立即生效
sysctl -a //查看所有的vm参数

与磁盘IO子系统有关的

/proc/sys/vm/dirty_ratio
这个参数控制文件系统的文件系统写缓冲区的大小，单位是百分比，表示系统内存的百分比，
表示当写缓冲使用到系统内存多少的时候，开始向磁盘写出数据。增大之会使用更多系统内
存用于磁盘写缓冲，也可以极大提高系统的写性能。但是，当你需要持续、恒定的写入场合
时，应该降低其数值，一般启动上缺省是 10。下面是增大的方法：

echo '40' > /proc/sys/vm/dirty_ratio

/proc/sys/vm/dirty_background_ratio
这个参数控制文件系统的pdflush进程，在何时刷新磁盘。单位是百分比，表示系统内存的百
分比，意思是当写缓冲使用到系统内存多少的时候，pdflush开始向磁盘写出数据。增大之会
使用更多系统内存用于磁盘写缓冲，也可以极大提高系统的写性能。但是，当你需要持续、恒
定的写入场合时，应该降低其数值，一般启动上缺省是 5。下面是增大的方法：

echo '20' > /proc/sys/vm/dirty_background_ratio

/proc/sys/vm/dirty_writeback_centisecs
这个参数控制内核的脏数据刷新进程pdflush的运行间隔。单位是 1/100 秒。缺省数值是500，
也就是 5 秒。如果你的系统是持续地写入动作，那么实际上还是降低这个数值比较好，这样可
以把尖峰的写操作削平成多次写操作。设置方法如下：

echo "200" > /proc/sys/vm/dirty_writeback_centisecs

如果你的系统是短期地尖峰式的写操作，并且写入数据不大（几十M/次）且内存有比较多富裕，那么应该增大此数值：

echo "1000" > /proc/sys/vm/dirty_writeback_centisecs

/proc/sys/vm/dirty_expire_centisecs
这个参数声明Linux内核写缓冲区里面的数据多“旧”了之后，pdflush进程就开始考虑写到磁盘中去。
单位是 1/100秒。缺省是 3000，也就是 30 秒的数据就算旧了，将会刷新磁盘。对于特别重载的写
操作来说，这个值适当缩小也是好的，但也不能缩小太多，因为缩小太多也会导致IO提高太快。建
议设置为 1500，也就是15秒算旧。

echo "1500" > /proc/sys/vm/dirty_expire_centisecs

当然，如果你的系统内存比较大，并且写入模式是间歇式的，并且每次写入的数据不大（比如几十M），
那么这个值还是大些的好。

与网络IO子系统有关的

/proc/sys/net/ipv4/tcp_retrans_collapse
这个参数控制TCP双方Window协商出现错误的时候的一些重传的行为。但是在老的2.6的核
（<2.6.18）里头，这个重传会导致kernel oops，kernel panic，所以，如果出现有
tcp_retrans_*样子的kernel panic，可以把这个参数给设置成0：

echo '0' > /proc/sys/net/ipv4/tcp_retrans_collapse

提高Linux应对短连接的负载能力
在存在大量短连接的情况下，Linux的TCP栈一般都会生成大量的 TIME_WAIT 状态的socket。
你可以用下面的命令看到：

netstat -ant| grep -i time_wait

有时候，这个数目是惊人的：

netstat -ant|grep -i time_wait |wc -l

可能会超过三四万。这个时候，我们需要修改 linux kernel 的 tcp time wait的时间，缩短之，
有个 sysctl 参数貌似可以使用，它是 /proc/sys/net/ipv4/tcp_fin_timeout，缺省值是 60，
也就是60秒，很多网上的资料都说将这个数值设置低一些就可以减少netstat 里面的TIME_WAIT状态，
但是这个说法是错误的。经过认真阅读Linux的内核源代码，我们发现这个数值其实是输出用的，
修改之后并没有真正的读回内核中进行使用，而内核中真正管用的是一个宏定义，在
$KERNEL/include/net/tcp.h里面，有下面的行：

#define TCP_TIMEWAIT_LEN (60*HZ) /* how long to wait to destroy TIME-WAIT
* state, about 60 seconds */

而这个宏是真正控制 TCP TIME_WAIT 状态的超时时间的。如果我们希望减少 TIME_WAIT 状态的数目
（从而节省一点点内核操作时间），那么可以把这个数值设置低一些，根据我们的测试，设置为 10
秒比较合适，也就是把上面的修改为：

#define TCP_TIMEWAIT_LEN (10*HZ) /* how long to wait to destroy TIME-WAIT
* state, about 60 seconds */

然后重新编译内核，重启系统即可发现短连接造成的TIME_WAIT状态大大减少：

netstat -ant | grep -i time_wait |wc -l

一般情况都可以至少减少2/3。也能相应提高系统应对短连接的速度。

/proc/irq/{number}/smp_affinity
在多 CPU 的环境中，还有一个中断平衡的问题，比如，网卡中断会教给哪个 CPU 处理，
这个参数控制哪些 CPU 可以绑定 IRQ 中断。其中的 {number} 是对应设备的中断编号，
可以用下面的命令找出：

cat /proc/interrupt

比如，一般 eth0 的 IRQ 编号是 16，所以控制 eth0 中断绑定的 /proc 文件名是
/proc/irq/16/smp_affinity。上面这个命令还可以看到某些中断对应的CPU处理的次数，
缺省的时候肯定是不平衡的。

设置其值的方法很简单，smp_affinity 自身是一个位掩码（bitmask），特定的位对应特
定的 CPU，这样，01 就意味着只有第一个 CPU 可以处理对应的中断，而 0f（0x1111）
意味着四个 CPU 都会参与中断处理。

几乎所有外设都有这个参数设置，可以关注一下。

这个数值的推荐设置，其实在很大程度上，让专门的CPU处理专门的中断是效率最高的，比如，
给磁盘IO一个CPU，给网卡一个CPU，这样是比较合理的。

④ 分析在linux中bigmem smp up 是什么意思！

当您用Red Hat Linux 9.0 GRUB启动系统时,会发现菜单中引导linux的有一种、两种、三种不等的情况：如下： Red Hat Linux-up(2.6.20up-8) bigmem: 一种内核的模式\或是1G 以上内存的优化内核smp: 多处理器的模式\该模式可以打开多个CPU的支持\也可以打开P4超线程技术

⑤ linux kernel 内存管理-页表、TLB

页表用来把虚拟页映射到物理页，并且存放页的保护位(即访问权限)。
在Linux4.11版本以前，Linux内核把页表分为4级：
页全局目录表(PGD)、页上层目录(PUD)、页中间目录(PMD)、直接页表(PT) 。
4.11版本把页表扩展到5级，在页全局目录和页上层目录之间增加了 页四级目录(P4D) 。
各处处理器架构可以选择使用5级，4级，3级或者2级页表，同一种处理器在页长度不同的情况可能选择不同的页表级数。可以使用配置宏CONFIG_PGTABLE_LEVELS配置页表的级数，一般使用默认值。
如果选择4级页表，那么使用PGD，PUD，PMD，PT；如果使用3级页表，那么使用PGD，PMD，PT；如果选择2级页表，那么使用PGD和PT。 如果不使用页中间目录 ，那么内核模拟页中间目录，调用函数pmd_offset 根据页上层目录表项和虚拟地址获取页中间目录表项时， 直接把页上层目录表项指针强制转换成页中间目录表项 。

每个进程有独立的页表，进程的mm_struct实例的成员pgd指向页全局目录,前面四级页表的表项存放下一级页表的起始地址，直接页表的页表项存放页帧号(PFN) 。
内核也有一个页表， 0号内核线程的进程描述符init_task的成员active_mm指向内存描述符init_mm，内存描述符init_mm的成员pgd指向内核的页全局目录swapper_pg_dir 。

ARM64处理器把页表称为转换表，最多4级。ARM64处理器支持三种页长度：4KB，16KB，64KB。页长度和虚拟地址的宽度决定了转换表的级数，在虚拟地址的宽度为48位的条件下，页长度和转换表级数的关系如下所示：

ARM64处理器把表项称为描述符，使用64位的长描述符格式。描述符的0bit指示描述符是不是有效的：0表示无效，1表示有效。第1位指定描述符类型。
在块描述符和页描述符中，内存属性被拆分为一个高属性和一个低属性块。

处理器的MMU负责把虚拟地址转换成物理地址，为了改进虚拟地址到物理地址的转换速度，避免每次转换都需要查询内存中的页表，处理器厂商在管理单元里加了称为TLB的高速缓存，TLB直译为转换后备缓冲区，意译为页表缓存。
页表缓存用来缓存最近使用过的页表项， 有些处理器使用两级页表缓存 ： 第一级TLB分为指令TLB和数据TLB，好处是取指令和取数据可以并行；第二级TLB是统一TLB，即指令和数据共用的TLB 。

不同处理器架构的TLB表项的格式不同。ARM64处理器的每条TLB表项不仅包含虚拟地址和物理地址，也包含属性：内存类型、缓存策略、访问权限、地址空间标识符(ASID)和虚拟机标识符(VMID)。 地址空间标识符区分不同进程的页表项 ， 虚拟机标识符区分不同虚拟机的页表项 。

如果内核修改了可能缓存在TLB里面的页表项，那么内核必须负责使旧的TLB表项失效，内核定义了每种处理器架构必须实现的函数。

当TLB没有命中的时候，ARM64处理器的MMU自动遍历内存中的页表，把页表项复制到TLB，不需要软件把页表项写到TLB，所以ARM64架构没有提供写TLB的指令。

为了减少在进程切换时清空页表缓存的需要，ARM64处理器的页表缓存使用非全局位区分内核和进程的页表项(nG位为0表示内核的页表项)， 使用地址空间标识符(ASID)区分不同进程的页表项 。
ARM64处理器的ASID长度是由具体实现定义的，可以选择8位或者16位。寄存器TTBR0_EL1或者TTBR1_EL1都可以用来存放当前进程的ASID，通常使用寄存器TCR_EL1的A1位决定使用哪个寄存器存放当前进程的ASID，通常使用寄存器 TTBR0_EL1 。寄存器TTBR0_EL1的位[63:48]或者[63:56]存放当前进程的ASID，位[47:1]存放当前进程的页全局目录的物理地址。
在SMP系统中，ARM64架构要求ASID在处理器的所有核是唯一的。假设ASID为8位，ASID只有256个值，其中0是保留值，可分配的ASID范围1~255，进程的数量可能超过255，两个进程的ASID可能相同，内核引入ASID版本号解决这个问题。
(1)每个进程有一个64位的软件ASID， 低8位存放硬件ASID，高56位存放ASID版本号 。
(2) 64位全局变量asid_generation的高56位保存全局ASID版本号 。
(3) 当进程被调度时，比较进程的ASID版本号和全局版本号 。如果版本号相同，那么直接使用上次分配的ASID，否则需要给进程重新分配硬件ASID。
存在空闲ASID，那么选择一个分配给进程。不存在空闲ASID时，把全局ASID版本号加1，重新从1开始分配硬件ASID，即硬件ASID从255回绕到1。因为刚分配的硬件ASID可能和某个进程的ASID相同，只是ASID版本号不同，页表缓存可能包含了这个进程的页表项，所以必须把所有处理器的页表缓存清空。
引入ASID版本号的好处是：避免每次进程切换都需要清空页表缓存，只需要在硬件ASID回环时把处理器的页表缓存清空 。

虚拟机里面运行的客户操作系统的虚拟地址转物理地址分两个阶段：
(1) 把虚拟地址转换成中间物理地址，由客户操作系统的内核控制 ，和非虚拟化的转换过程相同。
(2) 把中间物理地址转换成物理地址，由虚拟机监控器控制 ，虚拟机监控器为每个虚拟机维护一个转换表，分配一个虚拟机标识符，寄存器 VTTBR_EL2 存放当前虚拟机的阶段2转换表的物理地址。
每个虚拟机有独立的ASID空间 ，页表缓存使用 虚拟机标识符 区分不同虚拟机的转换表项，避免每次虚拟机切换都要清空页表缓存，在虚拟机标识符回绕时把处理器的页表缓存清空。

⑥ linux内核主要由哪几个部分组成

一个完整的Linux内核一般由5部分组成，它们分别是内存管理、进程管理、进程间通信、虚拟文件系统和网络接口。

1、内存管理
内存管理主要完成的是如何合理有效地管理整个系统的物理内存，同时快速响应内核各个子系统对内存分配的请求。

Linux内存管理支持虚拟内存，而多余出的这部分内存就是通过磁盘申请得到的，平时系统只把当前运行的程序块保留在内存中，其他程序块则保留在磁盘中。在内存紧缺时，内存管理负责在磁盘和内存间交换程序块。

2、进程管理
进程管理主要控制系统进程对CPU的访问。当需要某个进程运行时，由进程调度器根据基于优先级的调度算法启动新的进程。：Linux支持多任务运行，那么如何在一个单CPU上支持多任务呢？这个工作就是由进程调度管理来实现的。

在系统运行时，每个进程都会分得一定的时间片，然后进程调度器根据时间片的不同，选择每个进程依次运行，例如当某个进程的时间片用完后，调度器会选择一个新的进程继续运行。

由于切换的时间和频率都非常的快，由此用户感觉是多个程序在同时运行，而实际上，CPU在同一时间内只有一个进程在运行，这一切都是进程调度管理的结果。

3、进程间通信
进程间通信主要用于控制不同进程之间在用户空间的同步、数据共享和交换。由于不用的用户进程拥有不同的进程空间，因此进程间的通信要借助于内核的中转来实现。

一般情况下，当一个进程等待硬件操作完成时，会被挂起。当硬件操作完成，进程被恢复执行，而协调这个过程的就是进程间的通信机制。

4、虚拟文件系统
Linux内核中的虚拟文件系统用一个通用的文件模型表示了各种不同的文件系统，这个文件模型屏蔽了很多具体文件系统的差异，使Linux内核支持很多不同的文件系统。

这个文件系统可以分为逻辑文件系统和设备驱动程序：逻辑文件系统指Linux所支持的文件系统，例如ext2、ext3和fat等；设备驱动程序指为每一种硬件控制器所编写的设备驱动程序模块。

5、网络接口
网络接口提供了对各种网络标准的实现和各种网络硬件的支持。网络接口一般分为网络协议和网络驱动程序。网络协议部分负责实现每一种可能的网络传输协议。

网络设备驱动程序则主要负责与硬件设备进行通信，每一种可能的网络硬件设备都有相应的设备驱动程序。

(6)linuxsmp内存扩展阅读：

Linux 操作系统的诞生、发展和成长过程始终依赖着五个重要支柱：UNIX操作系统、MINIX操作系统、GNU计划、POSIX标准和Internet 网络。

1981 年IBM公司推出微型计算机IBM PC。

1991年，GNU计划已经开发出了许多工具软件，最受期盼的GNU C编译器已经出现，GNU的操作系统核心HURD一直处于实验阶段，没有任何可用性，实质上也没能开发出完整的GNU操作系统，但是GNU奠定了Linux用户基础和开发环境。

1991年初，林纳斯·托瓦兹开始在一台386sx兼容微机上学习minix操作系统。1991年4月，林纳斯·托瓦兹开始酝酿并着手编制自己的操作系统。

1991 年4 月13 日在comp.os.minix 上发布说自己已经成功地将bash 移植到了minix 上，而且已经爱不释手、不能离开这个shell软件了。

1993年，大约有100余名程序员参与了Linux内核代码编写/修改工作，其中核心组由5人组成，此时Linux 0.99的代码大约有十万行，用户大约有10万左右。

1994年3月，Linux1.0发布，代码量17万行，当时是按照完全自由免费的协议发布，随后正式采用GPL协议。

1995年1月，Bob Young创办了RedHat（小红帽），以GNU/Linux为核心，集成了400多个源代码开放的程序模块，搞出了一种冠以品牌的Linux，即RedHat Linux,称为Linux"发行版"，在市场上出售。这在经营模式上是一种创举。

2001年1月，Linux 2.4发布，它进一步地提升了SMP系统的扩展性，同时它也集成了很多用于支持桌面系统的特性：USB，PC卡（PCMCIA）的支持，内置的即插即用，等等功能。

2003年12月，Linux 2.6版内核发布，相对于2.4版内核2.6在对系统的支持都有很大的变化。

2004年的第1月，SuSE嫁到了Novell，SCO继续顶着骂名四处强行“化缘”， Asianux， MandrakeSoft也在五年中首次宣布季度赢利。3月，SGI宣布成功实现了Linux操作系统支持256个Itanium 2处理器。

⑦ linux内核：异步中断，抢占及SMP都是什么意思

异步中断就是中断的中断源不是当前进程，其实硬件中断都是异步的。

抢占是指高优先级的进程可以强占低优先级的进程的运行资源。

SMP，是对称多处理的意思，就是几个CPU核心对于内存来讲是地位相同的，没有主次之分

⑧ linux系统性能怎么优化

linux系统性能怎么优化
一、前提
我们可以在文章的开始就列出一个列表，列出可能影响Linux操作系统性能的一些调优参数，但这样做其实并没有什么价值。因为性能调优是一个非常困难的任务，它要求对硬件、操作系统、和应用都有着相当深入的了解。如果性能调优非常简单的话，那些我们要列出的调优参数早就写入硬件的微码或者操作系统中了，我们就没有必要再继续读这篇文章了。正如下图所示，服务器的性能受到很多因素的影响。
当面对一个使用单独IDE硬盘的，有20000用户的数据库服务器时，即使我们使用数周时间去调整I/O子系统也是徒劳无功的，通常一个新的驱动或者应用程序的一个更新(如SQL优化)却可以使这个服务器的性能得到明显的提升。正如我们前面提到的，不要忘记系统的性能是受多方面因素影响的。理解操作系统管理系统资源的方法将帮助我们在面对问题时更好的判断应该对哪个子系统进行调整。
二、Linux的CPU调度
任何计算机的基本功能都十分简单，那就是计算。为了实现计算的功能就必须有一个方法去管理计算资源、处理器和计算任务(也被叫做线程或者进程)。非常感谢Ingo Molnar，他为Linux内核带来了O(1)CPU调度器，区别于旧有的O(n)调度器，新的调度器是动态的，可以支持负载均衡，并以恒定的速度进行操作。
新调度器的可扩展性非常好，无论进程数量或者处理器数量，并且调度器本身的系统开销更少。新调取器的算法使用两个优先级队列。
引用
・活动运行队列
・过期运行队列
调度器的一个重要目标是根据优先级权限有效地为进程分配CPU 时间片，当分配完成后它被列在CPU的运行队列中，除了 CPU 的运行队列之外，还有一个过期运行队列。当活动运行队列中的一个任务用光自己的时间片之后，它就被移动到过期运行队列中。在移动过程中，会对其时间片重新进行计算。如果活动运行队列中已经没有某个给定优先级的任务了，那么指向活动运行队列和过期运行队列的指针就会交换，这样就可以让过期优先级列表变成活动优先级的列表。通常交互式进程(相对与实时进程而言)都有一个较高的优先级，它占有更长的时间片，比低优先级的进程获得更多的计算时间，但通过调度器自身的调整并不会使低优先级的进程完全被饿死。新调度器的优势是显著的改变Linux内核的可扩展性，使新内核可以更好的处理一些有大量进程、大量处理器组成的企业级应用。新的O(1)调度器包含仔2.6内核中，但是也向下兼容2.4内核。
新调度器另外一个重要的优势是体现在对NUMA(non-uniform memory architecture)和SMP(symmetric multithreading processors)的支持上，例如INTEL@的超线程技术。
改进的NUMA支持保证了负载均衡不会发生在CECs或者NUMA节点之间，除非发生一个节点的超出负载限度。
三、Linux的内存架构
今天我们面对选择32位操作系统还是64位操作系统的情况。对企业级用户它们之间最大的区别是64位操作系统可以支持大于4GB的内存寻址。从性能角度来讲，我们需要了解32位和64位操作系统都是如何进行物理内存和虚拟内存的映射的。
在上面图示中我们可以看到64位和32位Linux内核在寻址上有着显著的不同。
在32位架构中，比如IA-32，Linux内核可以直接寻址的范围只有物理内存的第一个GB(如果去掉保留部分还剩下896MB)，访问内存必须被映射到这小于1GB的所谓ZONE_NORMAL空间中，这个操作是由应用程序完成的。但是分配在ZONE_HIGHMEM中的内存页将导致性能的降低。
在另一方面，64位架构比如x86-64(也称作EM64T或者AMD64)。ZONE_NORMAL空间将扩展到64GB或者128GB(实际上可以更多，但是这个数值受到操作系统本身支持内存容量的限制)。正如我们看到的，使用64位操作系统我们排除了因ZONE_HIGHMEM部分内存对性能的影响的情况。
实际中，在32位架构下，由于上面所描述的内存寻址问题，对于大内存，高负载应用，会导致死机或严重缓慢等问题。虽然使用hugemen核心可缓解，但采取x86_64架构是最佳的解决办法。
四、虚拟内存管理
因为操作系统将内存都映射为虚拟内存，所以操作系统的物理内存结构对用户和应用来说通常都是不可见的。如果想要理解Linux系统内存的调优，我们必须了解Linux的虚拟内存机制。应用程序并不分配物理内存，而是向Linux内核请求一部分映射为虚拟内存的内存空间。如下图所示虚拟内存并不一定是映射物理内存中的空间，如果应用程序有一个大容量的请求，也可能会被映射到在磁盘子系统中的swap空间中。
另外要提到的是，通常应用程序不直接将数据写到磁盘子系统中，而是写入缓存和缓冲区中。Bdflush守护进程将定时将缓存或者缓冲区中的数据写到硬盘上。
Linux内核处理数据写入磁盘子系统和管理磁盘缓存是紧密联系在一起的。相对于其他的操作系统都是在内存中分配指定的一部分作为磁盘缓存，Linux处理内存更加有效，默认情况下虚拟内存管理器分配所有可用内存空间作为磁盘缓存，这就是为什么有时我们观察一个配置有数G内存的Linux系统可用内存只有20MB的原因。
同时Linux使用swap空间的机制也是相当高效率的，如上图所示虚拟内存空间是由物理内存和磁盘子系统中的swap空间共同组成的。如果虚拟内存管理器发现一个已经分配完成的内存分页已经长时间没有被调用，它将把这部分内存分页移到swap空间中。经常我们会发现一些守护进程，比如getty，会随系统启动但是却很少会被应用到。这时为了释放昂贵的主内存资源，系统会将这部分内存分页移动到swap空间中。上述就是Linux使用swap空间的机制，当swap分区使用超过50%时，并不意味着物理内存的使用已经达到瓶颈了，swap空间只是Linux内核更好的使用系统资源的一种方法。
简单理解：Swap usage只表示了Linux管理内存的有效性。对识别内存瓶颈来说，Swap In/Out才是一个比较又意义的依据，如果Swap In/Out的值长期保持在每秒200到300个页面通常就表示系统可能存在内存的瓶颈。下面的事例是好的状态：
引用
# vmstat
procs ———–memory————- —swap– —–io—- –system– —-cpu—-
r b swpd free buff cache si so bi bo in cs us sy id wa
1 0 5696 6904 28192 50496 0 0 88 117 61 29 11 8 80 1
五、模块化的I/O调度器
就象我们知道的Linux2.6内核为我们带来了很多新的特性，这其中就包括了新的I/O调度机制。旧的2.4内核使用一个单一的I/O调度器，2.6 内核为我们提供了四个可选择的I/O调度器。因为Linux系统应用在很广阔的范围里，不同的应用对I/O设备和负载的要求都不相同，例如一个笔记本电脑和一个10000用户的数据库服务器对I/O的要求肯定有着很大的区别。
引用
(1).Anticipatory
anticipatory I/O调度器创建假设一个块设备只有一个物理的查找磁头(例如一个单独的SATA硬盘)，正如anticipatory调度器名字一样，anticipatory调度器使用“anticipatory”的算法写入硬盘一个比较大的数据流代替写入多个随机的小的数据流，这样有可能导致写 I/O操作的一些延时。这个调度器适用于通常的一些应用，比如大部分的个人电脑。
(2).Complete Fair Queuing (CFQ)
Complete Fair Queuing(CFQ)调度器是Red Flag DC Server 5使用的标准算法。CFQ调度器使用QoS策略为系统内的所有任务分配相同的带宽。CFQ调度器适用于有大量计算进程的多用户系统。它试图避免进程被饿死和实现了比较低的延迟。
(3).Deadline
deadline调度器是使用deadline算法的轮询的调度器，提供对I/O子系统接近实时的操作，deadline调度器提供了很小的延迟和维持一个很好的磁盘吞吐量。如果使用deadline算法请确保进程资源分配不会出现问题。
(4).NOOP
NOOP调度器是一个简化的调度程序它只作最基本的合并与排序。与桌面系统的关系不是很大，主要用在一些特殊的软件与硬件环境下，这些软件与硬件一般都拥有自己的调度机制对内核支持的要求很小，这很适合一些嵌入式系统环境。作为桌面用户我们一般不会选择它。
六、网络子系统
新的网络中断缓和(NAPI)对网络子系统带来了改变，提高了大流量网络的性能。Linux内核在处理网络堆栈时，相比降低系统占用率和高吞吐量更关注可靠性和低延迟。所以在某些情况下，Linux建立一个防火墙或者文件、打印、数据库等企业级应用的性能可能会低于相同配置的Windows服务器。
在传统的处理网络封包的方式中，如下图蓝色箭头所描述的，一个以太网封包到达网卡接口后，如果MAC地址相符合会被送到网卡的缓冲区中。网卡然后将封包移到操作系统内核的网络缓冲区中并且对CPU发出一个硬中断，CPU会处理这个封包到相应的网络堆栈中，可能是一个TCP端口或者Apache应用中。
这是一个处理网络封包的简单的流程，但从中我们可以看到这个处理方式的缺点。正如我们看到的，每次适合网络封包到达网络接口都将对CPU发出一个硬中断信号，中断CPU正在处理的其他任务，导致切换动作和对CPU缓存的操作。你可能认为当只有少量的网络封包到达网卡的情况下这并不是个问题，但是千兆网络和现代的应用将带来每秒钟成千上万的网络数据，这就有可能对性能造成不良的影响。
正是因为这个情况，NAPI在处理网络通讯的时候引入了计数机制。对第一个封包，NAPI以传统的方式进行处理，但是对后面的封包，网卡引入了POLL 的轮询机制：如果一个封包在网卡DMA环的缓存中，就不再为这个封包申请新的中断，直到最后一个封包被处理或者缓冲区被耗尽。这样就有效的减少了因为过多的中断CPU对系统性能的影响。同时，NAPI通过创建可以被多处理器执行的软中断改善了系统的可扩展性。NAPI将为大量的企业级多处理器平台带来帮助，它要求一个启用NAPI的驱动程序。在今天很多驱动程序默认没有启用NAPI，这就为我们调优网络子系统的性能提供了更广阔的空间。
七、理解Linux调优参数
因为Linux是一个开源操作系统，所以又大量可用的性能监测工具。对这些工具的选择取决于你的个人喜好和对数据细节的要求。所有的性能监测工具都是按照同样的规则来工作的，所以无论你使用哪种监测工具都需要理解这些参数。下面列出了一些重要的参数，有效的理解它们是很有用处的。
(1)处理器参数
引用
・CPU utilization
这是一个很简单的参数，它直观的描述了每个CPU的利用率。在xSeries架构中，如果CPU的利用率长时间的超过80%，就可能是出现了处理器的瓶颈。
・Runable processes
这个值描述了正在准备被执行的进程，在一个持续时间里这个值不应该超过物理CPU数量的10倍，否则CPU方面就可能存在瓶颈。
・Blocked
描述了那些因为等待I/O操作结束而不能被执行的进程，Blocked可能指出你正面临I/O瓶颈。
・User time
描述了处理用户进程的百分比，包括nice time。如果User time的值很高，说明系统性能用在处理实际的工作。
・System time
描述了CPU花费在处理内核操作包括IRQ和软件中断上面的百分比。如果system time很高说明系统可能存在网络或者驱动堆栈方面的瓶颈。一个系统通常只花费很少的时间去处理内核的操作。
・Idle time
描述了CPU空闲的百分比。
・Nice time
描述了CPU花费在处理re-nicing进程的百分比。
・Context switch
系统中线程之间进行交换的数量。
・Waiting
CPU花费在等待I/O操作上的总时间，与blocked相似，一个系统不应该花费太多的时间在等待I/O操作上，否则你应该进一步检测I/O子系统是否存在瓶颈。
・Interrupts
Interrupts 值包括硬Interrupts和软Interrupts，硬Interrupts会对系统性能带来更多的不利影响。高的Interrupts值指出系统可能存在一个软件的瓶颈，可能是内核或者驱动程序。注意Interrupts值中包括CPU时钟导致的中断(现代的xServer系统每秒1000个 Interrupts值)。
(2)内存参数
引用
・Free memory
相比其他操作系统，Linux空闲内存的值不应该做为一个性能参考的重要指标，因为就像我们之前提到过的，Linux内核会分配大量没有被使用的内存作为文件系统的缓存，所以这个值通常都比较小。
・Swap usage
这个值描述了已经被使用的swap空间。Swap usage只表示了Linux管理内存的有效性。对识别内存瓶颈来说，Swap In/Out才是一个比较又意义的依据，如果Swap In/Out的值长期保持在每秒200到300个页面通常就表示系统可能存在内存的瓶颈。
・Buffer and cache
这个值描述了为文件系统和块设备分配的缓存。在Red Flag DC Server 5版本中,你可以通过修改/proc/sys/vm中的page_cache_tuning来调整空闲内存中作为缓存的数量。
・Slabs
描述了内核使用的内存空间，注意内核的页面是不能被交换到磁盘上的。
・Active versus inactive memory
提供了关于系统内存的active内存信息，Inactive内存是被kswapd守护进程交换到磁盘上的空间。
(3)网络参数
引用
・Packets received and sent
这个参数表示了一个指定网卡接收和发送的数据包的数量。
・Bytes received and sent
这个参数表示了一个指定网卡接收和发送的数据包的字节数。
・Collisions per second
这个值提供了发生在指定网卡上的网络冲突的数量。持续的出现这个值代表在网络架构上出现了瓶颈，而不是在服务器端出现的问题。在正常配置的网络中冲突是非常少见的，除非用户的网络环境都是由hub组成。
・Packets dropped
这个值表示了被内核丢掉的数据包数量，可能是因为防火墙或者是网络缓存的缺乏。
・Overruns
Overruns表达了超出网络接口缓存的次数，这个参数应该和packets dropped值联系到一起来判断是否存在在网络缓存或者网络队列过长方面的瓶颈。
・Errors 这个值记录了标志为失败的帧的数量。这个可能由错误的网络配置或者部分网线损坏导致，在铜口千兆以太网环境中部分网线的损害是影响性能的一个重要因素。
(4)块设备参数
引用
・Iowait
CPU等待I/O操作所花费的时间。这个值持续很高通常可能是I/O瓶颈所导致的。
・Average queue length
I/O请求的数量，通常一个磁盘队列值为2到3为最佳情况，更高的值说明系统可能存在I/O瓶颈。
・Average wait
响应一个I/O操作的平均时间。Average wait包括实际I/O操作的时间和在I/O队列里等待的时间。
・Transfers per second
描述每秒执行多少次I/O操作(包括读和写)。Transfers per second的值与kBytes per second结合起来可以帮助你估计系统的平均传输块大小，这个传输块大小通常和磁盘子系统的条带化大小相符合可以获得最好的性能。
・Blocks read/write per second
这个值表达了每秒读写的blocks数量，在2.6内核中blocks是1024bytes，在早些的内核版本中blocks可以是不同的大小，从512bytes到4kb。
・Kilobytes per second read/write
按照kb为单位表示读写块设备的实际数据的数量。

⑨ linux内存占用卡死分析

一、硬件问题

可以考虑分析以下几点：

1、不要超频CPU，如果已经超频的先回复到原来的频率

虽然平时运行没有问题，但可能在高负载的使用中就会出现不可预料的故障了。特别是linux系统在某些应用上，是可以把硬件的性能发挥到极限的，但这样的硬件运行Windows可能是没有问题的。

2、确认电源供电充足

必须确保在高负载的状态下，电源可以满足负载。

3、使用memtest86检查内存状态

4、恢复BIOS到默认状态

对于服务器，可以使用自带的监测工具进行测试，也是一个不错的排错方法。

二、软件问题

如果已经基本排除硬件问题，那我们就必须考虑从软件上去获得死机状态的系统信息了。

1、运气足够好的话，系统死机不一定是完全死掉（此时键盘可能还能响应），那我们就可以使用Sysrq大法。

前提是我们必须先打开sysrq功能：

#echo "1" > /proc/sys/kernel/sysrq

#setterm -blank

这样，当系统出现问题的时候，我们可以使用：

引用

Alt+Sysrq-T 获得进程系统堆栈信息

Alt+Sysrq-M 获得内存分配信息

Alt+Sysrq-W 获得当前寄存器信息

更多的热键可以参考系统上的/usr/src/linux/Documentaion/sysrq.txt

其中，setterm -blank可以关闭字符下定时黑屏保护，方便记录屏幕信息。

2、为了让屏幕显示更多的内核调试信息，可以修改控制台的显示模式为80x25，在/boot/grub/menu.lst中对应的kernel一行最后，增加vga=0x305，如：

引用

kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=/LABEL=/1 vga=0x305

3、万一键盘也不幸死掉了，那我们只能采用串口方式，把系统信息发送到另一台系统上，方法：

修改/boot/grub/menu.lst文件，在kernel一行最后增加核心参数"console=ttyS0 console=tty1"，如：

引用

kernel /boot/grub/vmlinuz-2.4.21-9.30AXsmp ro root=/LABEL=/1 console=ttyS0 console=tty1

然后，修改/etc/sysconfig/syslog，加入klogd选项"-c 7"，如：

引用

KLOGD_OPTIONS="-x -c 7"

重启服务器；进行测试：

1）使用串口直连线连接客户机和服务器，在客户机上运行：

cat /dev/ttyS0

服务器上运行：

echo hi > /dev/ttyS0

如果客户机有"hi"输出即可。

2）服务器上运行：

echo w > /proc/sysrq-trigger

看看客户机上是否有相应的内核信息输出

3）服务器上运行：

modprobe loop

看看客户机上是否有相应的内核信息输出

如果测试都通过的话，那么在客户机上运行：

cat /dev/ttyS0 | tee /tmp/result

当死机出现的时候，我们就可以从客户机上看到需要的内核信息了（查看/tmp/result）。

三、总结

一般造成Linux系统死机的原因有：

系统硬件问题（SCSI卡，主板，RAID卡，HBA卡，网卡，硬盘等）

外围硬件问题（网络等）

软件问题（系统、应用软件）

驱动bug（找新的驱动）

核心系统bug（到LKML看看，或更换核心再试）

系统设置（恢复到缺省状态，关闭防火墙等）

⑩ 什么是linux内核

Linux是由Linus Torvalds开发的类UNIX的操作系统，Linux主要特点是开源的，因此我们可以免费使用来当做服务器。

Linux严格分为两个含义。

1.广泛的Linux是指Linux发行版

2.狭义的Linux是指Linux内核

Linux内核是操作系统的基础，介于硬件和软件之间，并且内核位于操作系统中,操作系统将在硬件和软件之间进行调解，Linux内核是操作系统核心部分的功能。

二：内核的基本性能

1.流程管理

在Linux内核中，程序的执行状态以进程为单位进行管理。此外，内核为每个进程准备一个名为task_stract结构的数据结构。

2.进程调度程序

可执行状态等待哪个进程以哪个顺序执行,由于基本上不可能运行比CPU数量更多的进程，因此运行过程的效率非常重要。

3.内存管理

在Linux内核中，使用物理内存和虚拟内存管理数据。通过分配对应于物理存储器的虚拟地址，而不是实际为每个进程分配物理存储器地址，可以使用容量远大于实际物理存储器容量的存储器。它使它成为可能。此外，由于每个进程都分配了自己的虚拟地址，因此每个进程的内存空间是独立的，并且不会违反其他进程的内存。

3.文件系统

它以文件的形式提供存储数据的访问方法。所有数据都以文件的形式进行管理。/ Directory（根目录）作为顶点，内核本身作为文件和目录的集合存在。

导航:首页 > 编程系统 > linuxsmp内存

linuxsmp内存

与linuxsmp内存相关的资料

友情链接