linuxsmp內存_linux內核主要由哪幾個部分組成

① linux上MySQL優化提升性能，哪些可以優化關閉NUMA特性

Linux上MySQL優化提升性能，可以優化關閉NUMA特性如下：

這些其實都源於CPU最新的技術：節能模式。操作系統和CPU硬體配合，系統不繁忙的時候，為了節約電能和降低溫度，它會將CPU降頻。

為了保證MySQL能夠充分利用CPU的資源，建議設置CPU為最大性能模式。這個設置可以在BIOS和操作系統中設置，當然，在BIOS中設置該選項更好，更徹底。

然後我們看看內存方面，我們有哪些可以優化的。

i) 我們先看看numa

非一致存儲訪問結構 (NUMA ： Non-Uniform Memory Access) 也是最新的內存管理技術。它和對稱多處理器結構 (SMP ： Symmetric Multi-Processor) 是對應的。

我們可以直觀的看到：SMP訪問內存的都是代價都是一樣的;但是在NUMA架構下，本地內存的訪問和非本地內存的訪問代價是不一樣的。對應的根據這個特性，操作系統上，我們可以設置進程的內存分配方式。目前支持的方式包括：

--interleave=nodes

--membind=nodes

--cpunodebind=nodes

--physcpubind=cpus

--localalloc

--preferred=node

簡而言之，就是說，你可以指定內存在本地分配，在某幾個CPU節點分配或者輪詢分配。除非是設置為--interleave=nodes輪詢分配方式，即內存可以在任意NUMA節點上分配這種方式以外。其他的方式就算其他NUMA節點上還有內存剩餘，Linux也不會把剩餘的內存分配給這個進程，而是採用SWAP的方式來獲得內存。

所以最簡單的方法，還是關閉掉這個特性。

關閉特性的方法，分別有：可以從BIOS，操作系統，啟動進程時臨時關閉這個特性。

a) 由於各種BIOS類型的區別，如何關閉NUMA千差萬別，我們這里就不具體展示怎麼設置了。

b) 在操作系統中關閉，可以直接在/etc/grub.conf的kernel行最後添加numa=off，如下所示：

kernel /vmlinuz-2.6.32-220.el6.x86_64 ro root=/dev/mapper/VolGroup-root rd_NO_LUKS.UTF-8 rd_LVM_LV=VolGroup/root rd_NO_MD quiet SYSFONT=latarcyrheb-sun16 rhgb crashkernel=auto rd_LVM_LV=VolGroup/swap rhgb crashkernel=auto quiet KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM numa=off

另外可以設置 vm.zone_reclaim_mode=0盡量回收內存。

c) 啟動MySQL的時候，關閉NUMA特性：

numactl --interleave=all mysqld

當然，最好的方式是在BIOS中關閉。

ii) 我們再看看vm.swappiness。

vm.swappiness是操作系統控制物理內存交換出去的策略。它允許的值是一個百分比的值，最小為0，最大運行100，該值默認為60。vm.swappiness設置為0表示盡量少swap，100表示盡量將inactive的內存頁交換出去。

具體的說：當內存基本用滿的時候，系統會根據這個參數來判斷是把內存中很少用到的inactive 內存交換出去，還是釋放數據的cache。

② linux系統增加內存

為什麼free -m和-g顯示的不一樣?
m是MB g是GB
沒有到1那就是0，命令是這么設計的。。。

你的內存確定加進去了？回拆機看看吧，是答否兼容。系統是否支持8g得看硬體設備是否兼容，和系統沒毛線關系！

③ linux虛擬內存有什麼作用

linux下的vm(虛擬內存)和windows下的作用是一樣的,均是防止真實內存資源不足准備的.
linux的vm相關參數介紹

1. 保證linux有足夠的物理內存，可以調整vm的如下參數

vm.min_free_kbytes=409600;//默認值是3797，保證物理內存有足夠空閑空間，防止突發性換頁

vm.vfs_cache_pressure=200；//默認是100，增大這個參數設置了虛擬內存回收directory和i-node緩沖的傾向，這個值越大。越易回收

vm.swappiness=40 //預設60，減少這個參數會使系統盡快通過swapout不使用的進程資源來釋放更多的物理內存

一般在rac的配置環境中配置這三個參數，可以防止換頁引起節點短暫無響應，導致節點重啟

2. 改善io系統的性能

overcommit_memory = 0
vm.overcommit_ratio = 10 //默認值是50，用於虛擬內存的物理內存的百分比

vm.dirty_ratio = 20 //默認值是40，為了保持穩定，持續的寫入，把這個值調整的小一些，經驗值是20

vm.dirty_background_ratio //預設數值是500，也就是5秒,如果系統要求穩定持續的寫，可以適當降低該值，把峰值的寫操作平均多次，也避免宕機丟失更多的數據

vm.dirty_expire_centisecs //預設是3000，也就是30秒,如果系統寫操作壓力很大，可以適當減小該值，但也不要太小；建議設置為 1500

vm的相關參數在/proc/sys目錄下

相關命令

sysctl -p //修改vm參數後，運行這個命令可以立即生效
sysctl -a //查看所有的vm參數

與磁碟IO子系統有關的

/proc/sys/vm/dirty_ratio
這個參數控制文件系統的文件系統寫緩沖區的大小，單位是百分比，表示系統內存的百分比，
表示當寫緩沖使用到系統內存多少的時候，開始向磁碟寫出數據。增大之會使用更多系統內
存用於磁碟寫緩沖，也可以極大提高系統的寫性能。但是，當你需要持續、恆定的寫入場合
時，應該降低其數值，一般啟動上預設是 10。下面是增大的方法：

echo '40' > /proc/sys/vm/dirty_ratio

/proc/sys/vm/dirty_background_ratio
這個參數控制文件系統的pdflush進程，在何時刷新磁碟。單位是百分比，表示系統內存的百
分比，意思是當寫緩沖使用到系統內存多少的時候，pdflush開始向磁碟寫出數據。增大之會
使用更多系統內存用於磁碟寫緩沖，也可以極大提高系統的寫性能。但是，當你需要持續、恆
定的寫入場合時，應該降低其數值，一般啟動上預設是 5。下面是增大的方法：

echo '20' > /proc/sys/vm/dirty_background_ratio

/proc/sys/vm/dirty_writeback_centisecs
這個參數控制內核的臟數據刷新進程pdflush的運行間隔。單位是 1/100 秒。預設數值是500，
也就是 5 秒。如果你的系統是持續地寫入動作，那麼實際上還是降低這個數值比較好，這樣可
以把尖峰的寫操作削平成多次寫操作。設置方法如下：

echo "200" > /proc/sys/vm/dirty_writeback_centisecs

如果你的系統是短期地尖峰式的寫操作，並且寫入數據不大（幾十M/次）且內存有比較多富裕，那麼應該增大此數值：

echo "1000" > /proc/sys/vm/dirty_writeback_centisecs

/proc/sys/vm/dirty_expire_centisecs
這個參數聲明Linux內核寫緩沖區裡面的數據多「舊」了之後，pdflush進程就開始考慮寫到磁碟中去。
單位是 1/100秒。預設是 3000，也就是 30 秒的數據就算舊了，將會刷新磁碟。對於特別重載的寫
操作來說，這個值適當縮小也是好的，但也不能縮小太多，因為縮小太多也會導致IO提高太快。建
議設置為 1500，也就是15秒算舊。

echo "1500" > /proc/sys/vm/dirty_expire_centisecs

當然，如果你的系統內存比較大，並且寫入模式是間歇式的，並且每次寫入的數據不大（比如幾十M），
那麼這個值還是大些的好。

與網路IO子系統有關的

/proc/sys/net/ipv4/tcp_retrans_collapse
這個參數控制TCP雙方Window協商出現錯誤的時候的一些重傳的行為。但是在老的2.6的核
（<2.6.18）里頭，這個重傳會導致kernel oops，kernel panic，所以，如果出現有
tcp_retrans_*樣子的kernel panic，可以把這個參數給設置成0：

echo '0' > /proc/sys/net/ipv4/tcp_retrans_collapse

提高Linux應對短連接的負載能力
在存在大量短連接的情況下，Linux的TCP棧一般都會生成大量的 TIME_WAIT 狀態的socket。
你可以用下面的命令看到：

netstat -ant| grep -i time_wait

有時候，這個數目是驚人的：

netstat -ant|grep -i time_wait |wc -l

可能會超過三四萬。這個時候，我們需要修改 linux kernel 的 tcp time wait的時間，縮短之，
有個 sysctl 參數貌似可以使用，它是 /proc/sys/net/ipv4/tcp_fin_timeout，預設值是 60，
也就是60秒，很多網上的資料都說將這個數值設置低一些就可以減少netstat 裡面的TIME_WAIT狀態，
但是這個說法是錯誤的。經過認真閱讀Linux的內核源代碼，我們發現這個數值其實是輸出用的，
修改之後並沒有真正的讀回內核中進行使用，而內核中真正管用的是一個宏定義，在
$KERNEL/include/net/tcp.h裡面，有下面的行：

#define TCP_TIMEWAIT_LEN (60*HZ) /* how long to wait to destroy TIME-WAIT
* state, about 60 seconds */

而這個宏是真正控制 TCP TIME_WAIT 狀態的超時時間的。如果我們希望減少 TIME_WAIT 狀態的數目
（從而節省一點點內核操作時間），那麼可以把這個數值設置低一些，根據我們的測試，設置為 10
秒比較合適，也就是把上面的修改為：

#define TCP_TIMEWAIT_LEN (10*HZ) /* how long to wait to destroy TIME-WAIT
* state, about 60 seconds */

然後重新編譯內核，重啟系統即可發現短連接造成的TIME_WAIT狀態大大減少：

netstat -ant | grep -i time_wait |wc -l

一般情況都可以至少減少2/3。也能相應提高系統應對短連接的速度。

/proc/irq/{number}/smp_affinity
在多 CPU 的環境中，還有一個中斷平衡的問題，比如，網卡中斷會教給哪個 CPU 處理，
這個參數控制哪些 CPU 可以綁定 IRQ 中斷。其中的 {number} 是對應設備的中斷編號，
可以用下面的命令找出：

cat /proc/interrupt

比如，一般 eth0 的 IRQ 編號是 16，所以控制 eth0 中斷綁定的 /proc 文件名是
/proc/irq/16/smp_affinity。上面這個命令還可以看到某些中斷對應的CPU處理的次數，
預設的時候肯定是不平衡的。

設置其值的方法很簡單，smp_affinity 自身是一個位掩碼（bitmask），特定的位對應特
定的 CPU，這樣，01 就意味著只有第一個 CPU 可以處理對應的中斷，而 0f（0x1111）
意味著四個 CPU 都會參與中斷處理。

幾乎所有外設都有這個參數設置，可以關注一下。

這個數值的推薦設置，其實在很大程度上，讓專門的CPU處理專門的中斷是效率最高的，比如，
給磁碟IO一個CPU，給網卡一個CPU，這樣是比較合理的。

④ 分析在linux中bigmem smp up 是什麼意思！

當您用Red Hat Linux 9.0 GRUB啟動系統時,會發現菜單中引導linux的有一種、兩種、三種不等的情況：如下： Red Hat Linux-up(2.6.20up-8) bigmem: 一種內核的模式\或是1G 以上內存的優化內核smp: 多處理器的模式\該模式可以打開多個CPU的支持\也可以打開P4超線程技術

⑤ linux kernel 內存管理-頁表、TLB

頁表用來把虛擬頁映射到物理頁，並且存放頁的保護位(即訪問許可權)。
在Linux4.11版本以前，Linux內核把頁表分為4級：
頁全局目錄表(PGD)、頁上層目錄(PUD)、頁中間目錄(PMD)、直接頁表(PT) 。
4.11版本把頁表擴展到5級，在頁全局目錄和頁上層目錄之間增加了 頁四級目錄(P4D) 。
各處處理器架構可以選擇使用5級，4級，3級或者2級頁表，同一種處理器在頁長度不同的情況可能選擇不同的頁表級數。可以使用配置宏CONFIG_PGTABLE_LEVELS配置頁表的級數，一般使用默認值。
如果選擇4級頁表，那麼使用PGD，PUD，PMD，PT；如果使用3級頁表，那麼使用PGD，PMD，PT；如果選擇2級頁表，那麼使用PGD和PT。 如果不使用頁中間目錄 ，那麼內核模擬頁中間目錄，調用函數pmd_offset 根據頁上層目錄表項和虛擬地址獲取頁中間目錄表項時， 直接把頁上層目錄表項指針強制轉換成頁中間目錄表項 。

每個進程有獨立的頁表，進程的mm_struct實例的成員pgd指向頁全局目錄,前面四級頁表的表項存放下一級頁表的起始地址，直接頁表的頁表項存放頁幀號(PFN) 。
內核也有一個頁表， 0號內核線程的進程描述符init_task的成員active_mm指向內存描述符init_mm，內存描述符init_mm的成員pgd指向內核的頁全局目錄swapper_pg_dir 。

ARM64處理器把頁表稱為轉換表，最多4級。ARM64處理器支持三種頁長度：4KB，16KB，64KB。頁長度和虛擬地址的寬度決定了轉換表的級數，在虛擬地址的寬度為48位的條件下，頁長度和轉換表級數的關系如下所示：

ARM64處理器把表項稱為描述符，使用64位的長描述符格式。描述符的0bit指示描述符是不是有效的：0表示無效，1表示有效。第1位指定描述符類型。
在塊描述符和頁描述符中，內存屬性被拆分為一個高屬性和一個低屬性塊。

處理器的MMU負責把虛擬地址轉換成物理地址，為了改進虛擬地址到物理地址的轉換速度，避免每次轉換都需要查詢內存中的頁表，處理器廠商在管理單元里加了稱為TLB的高速緩存，TLB直譯為轉換後備緩沖區，意譯為頁表緩存。
頁表緩存用來緩存最近使用過的頁表項， 有些處理器使用兩級頁表緩存 ： 第一級TLB分為指令TLB和數據TLB，好處是取指令和取數據可以並行；第二級TLB是統一TLB，即指令和數據共用的TLB 。

不同處理器架構的TLB表項的格式不同。ARM64處理器的每條TLB表項不僅包含虛擬地址和物理地址，也包含屬性：內存類型、緩存策略、訪問許可權、地址空間標識符(ASID)和虛擬機標識符(VMID)。 地址空間標識符區分不同進程的頁表項 ， 虛擬機標識符區分不同虛擬機的頁表項 。

如果內核修改了可能緩存在TLB裡面的頁表項，那麼內核必須負責使舊的TLB表項失效，內核定義了每種處理器架構必須實現的函數。

當TLB沒有命中的時候，ARM64處理器的MMU自動遍歷內存中的頁表，把頁表項復制到TLB，不需要軟體把頁表項寫到TLB，所以ARM64架構沒有提供寫TLB的指令。

為了減少在進程切換時清空頁表緩存的需要，ARM64處理器的頁表緩存使用非全局位區分內核和進程的頁表項(nG位為0表示內核的頁表項)， 使用地址空間標識符(ASID)區分不同進程的頁表項 。
ARM64處理器的ASID長度是由具體實現定義的，可以選擇8位或者16位。寄存器TTBR0_EL1或者TTBR1_EL1都可以用來存放當前進程的ASID，通常使用寄存器TCR_EL1的A1位決定使用哪個寄存器存放當前進程的ASID，通常使用寄存器 TTBR0_EL1 。寄存器TTBR0_EL1的位[63:48]或者[63:56]存放當前進程的ASID，位[47:1]存放當前進程的頁全局目錄的物理地址。
在SMP系統中，ARM64架構要求ASID在處理器的所有核是唯一的。假設ASID為8位，ASID只有256個值，其中0是保留值，可分配的ASID范圍1~255，進程的數量可能超過255，兩個進程的ASID可能相同，內核引入ASID版本號解決這個問題。
(1)每個進程有一個64位的軟體ASID， 低8位存放硬體ASID，高56位存放ASID版本號 。
(2) 64位全局變數asid_generation的高56位保存全局ASID版本號 。
(3) 當進程被調度時，比較進程的ASID版本號和全局版本號 。如果版本號相同，那麼直接使用上次分配的ASID，否則需要給進程重新分配硬體ASID。
存在空閑ASID，那麼選擇一個分配給進程。不存在空閑ASID時，把全局ASID版本號加1，重新從1開始分配硬體ASID，即硬體ASID從255回繞到1。因為剛分配的硬體ASID可能和某個進程的ASID相同，只是ASID版本號不同，頁表緩存可能包含了這個進程的頁表項，所以必須把所有處理器的頁表緩存清空。
引入ASID版本號的好處是：避免每次進程切換都需要清空頁表緩存，只需要在硬體ASID回環時把處理器的頁表緩存清空 。

虛擬機裡面運行的客戶操作系統的虛擬地址轉物理地址分兩個階段：
(1) 把虛擬地址轉換成中間物理地址，由客戶操作系統的內核控制 ，和非虛擬化的轉換過程相同。
(2) 把中間物理地址轉換成物理地址，由虛擬機監控器控制 ，虛擬機監控器為每個虛擬機維護一個轉換表，分配一個虛擬機標識符，寄存器 VTTBR_EL2 存放當前虛擬機的階段2轉換表的物理地址。
每個虛擬機有獨立的ASID空間 ，頁表緩存使用 虛擬機標識符 區分不同虛擬機的轉換表項，避免每次虛擬機切換都要清空頁表緩存，在虛擬機標識符回繞時把處理器的頁表緩存清空。

⑥ linux內核主要由哪幾個部分組成

一個完整的Linux內核一般由5部分組成，它們分別是內存管理、進程管理、進程間通信、虛擬文件系統和網路介面。

1、內存管理
內存管理主要完成的是如何合理有效地管理整個系統的物理內存，同時快速響應內核各個子系統對內存分配的請求。

Linux內存管理支持虛擬內存，而多餘出的這部分內存就是通過磁碟申請得到的，平時系統只把當前運行的程序塊保留在內存中，其他程序塊則保留在磁碟中。在內存緊缺時，內存管理負責在磁碟和內存間交換程序塊。

2、進程管理
進程管理主要控制系統進程對CPU的訪問。當需要某個進程運行時，由進程調度器根據基於優先順序的調度演算法啟動新的進程。：Linux支持多任務運行，那麼如何在一個單CPU上支持多任務呢？這個工作就是由進程調度管理來實現的。

在系統運行時，每個進程都會分得一定的時間片，然後進程調度器根據時間片的不同，選擇每個進程依次運行，例如當某個進程的時間片用完後，調度器會選擇一個新的進程繼續運行。

由於切換的時間和頻率都非常的快，由此用戶感覺是多個程序在同時運行，而實際上，CPU在同一時間內只有一個進程在運行，這一切都是進程調度管理的結果。

3、進程間通信
進程間通信主要用於控制不同進程之間在用戶空間的同步、數據共享和交換。由於不用的用戶進程擁有不同的進程空間，因此進程間的通信要藉助於內核的中轉來實現。

一般情況下，當一個進程等待硬體操作完成時，會被掛起。當硬體操作完成，進程被恢復執行，而協調這個過程的就是進程間的通信機制。

4、虛擬文件系統
Linux內核中的虛擬文件系統用一個通用的文件模型表示了各種不同的文件系統，這個文件模型屏蔽了很多具體文件系統的差異，使Linux內核支持很多不同的文件系統。

這個文件系統可以分為邏輯文件系統和設備驅動程序：邏輯文件系統指Linux所支持的文件系統，例如ext2、ext3和fat等；設備驅動程序指為每一種硬體控制器所編寫的設備驅動程序模塊。

5、網路介面
網路介面提供了對各種網路標準的實現和各種網路硬體的支持。網路介面一般分為網路協議和網路驅動程序。網路協議部分負責實現每一種可能的網路傳輸協議。

網路設備驅動程序則主要負責與硬體設備進行通信，每一種可能的網路硬體設備都有相應的設備驅動程序。

(6)linuxsmp內存擴展閱讀：

Linux 操作系統的誕生、發展和成長過程始終依賴著五個重要支柱：UNIX操作系統、MINIX操作系統、GNU計劃、POSIX標准和Internet 網路。

1981 年IBM公司推出微型計算機IBM PC。

1991年，GNU計劃已經開發出了許多工具軟體，最受期盼的GNU C編譯器已經出現，GNU的操作系統核心HURD一直處於實驗階段，沒有任何可用性，實質上也沒能開發出完整的GNU操作系統，但是GNU奠定了Linux用戶基礎和開發環境。

1991年初，林納斯·托瓦茲開始在一台386sx兼容微機上學習minix操作系統。1991年4月，林納斯·托瓦茲開始醞釀並著手編制自己的操作系統。

1991 年4 月13 日在comp.os.minix 上發布說自己已經成功地將bash 移植到了minix 上，而且已經愛不釋手、不能離開這個shell軟體了。

1993年，大約有100餘名程序員參與了Linux內核代碼編寫/修改工作，其中核心組由5人組成，此時Linux 0.99的代碼大約有十萬行，用戶大約有10萬左右。

1994年3月，Linux1.0發布，代碼量17萬行，當時是按照完全自由免費的協議發布，隨後正式採用GPL協議。

1995年1月，Bob Young創辦了RedHat（小紅帽），以GNU/Linux為核心，集成了400多個源代碼開放的程序模塊，搞出了一種冠以品牌的Linux，即RedHat Linux,稱為Linux"發行版"，在市場上出售。這在經營模式上是一種創舉。

2001年1月，Linux 2.4發布，它進一步地提升了SMP系統的擴展性，同時它也集成了很多用於支持桌面系統的特性：USB，PC卡（PCMCIA）的支持，內置的即插即用，等等功能。

2003年12月，Linux 2.6版內核發布，相對於2.4版內核2.6在對系統的支持都有很大的變化。

2004年的第1月，SuSE嫁到了Novell，SCO繼續頂著罵名四處強行「化緣」， Asianux， MandrakeSoft也在五年中首次宣布季度贏利。3月，SGI宣布成功實現了Linux操作系統支持256個Itanium 2處理器。

⑦ linux內核：非同步中斷，搶占及SMP都是什麼意思

非同步中斷就是中斷的中斷源不是當前進程，其實硬體中斷都是非同步的。

搶占是指高優先順序的進程可以強占低優先順序的進程的運行資源。

SMP，是對稱多處理的意思，就是幾個CPU核心對於內存來講是地位相同的，沒有主次之分

⑧ linux系統性能怎麼優化

linux系統性能怎麼優化
一、前提
我們可以在文章的開始就列出一個列表，列出可能影響Linux操作系統性能的一些調優參數，但這樣做其實並沒有什麼價值。因為性能調優是一個非常困難的任務，它要求對硬體、操作系統、和應用都有著相當深入的了解。如果性能調優非常簡單的話，那些我們要列出的調優參數早就寫入硬體的微碼或者操作系統中了，我們就沒有必要再繼續讀這篇文章了。正如下圖所示，伺服器的性能受到很多因素的影響。
當面對一個使用單獨IDE硬碟的，有20000用戶的資料庫伺服器時，即使我們使用數周時間去調整I/O子系統也是徒勞無功的，通常一個新的驅動或者應用程序的一個更新(如SQL優化)卻可以使這個伺服器的性能得到明顯的提升。正如我們前面提到的，不要忘記系統的性能是受多方面因素影響的。理解操作系統管理系統資源的方法將幫助我們在面對問題時更好的判斷應該對哪個子系統進行調整。
二、Linux的CPU調度
任何計算機的基本功能都十分簡單，那就是計算。為了實現計算的功能就必須有一個方法去管理計算資源、處理器和計算任務(也被叫做線程或者進程)。非常感謝Ingo Molnar，他為Linux內核帶來了O(1)CPU調度器，區別於舊有的O(n)調度器，新的調度器是動態的，可以支持負載均衡，並以恆定的速度進行操作。
新調度器的可擴展性非常好，無論進程數量或者處理器數量，並且調度器本身的系統開銷更少。新調取器的演算法使用兩個優先順序隊列。
引用
・活動運行隊列
・過期運行隊列
調度器的一個重要目標是根據優先順序許可權有效地為進程分配CPU 時間片，當分配完成後它被列在CPU的運行隊列中，除了 CPU 的運行隊列之外，還有一個過期運行隊列。當活動運行隊列中的一個任務用光自己的時間片之後，它就被移動到過期運行隊列中。在移動過程中，會對其時間片重新進行計算。如果活動運行隊列中已經沒有某個給定優先順序的任務了，那麼指向活動運行隊列和過期運行隊列的指針就會交換，這樣就可以讓過期優先順序列表變成活動優先順序的列表。通常互動式進程(相對與實時進程而言)都有一個較高的優先順序，它佔有更長的時間片，比低優先順序的進程獲得更多的計算時間，但通過調度器自身的調整並不會使低優先順序的進程完全被餓死。新調度器的優勢是顯著的改變Linux內核的可擴展性，使新內核可以更好的處理一些有大量進程、大量處理器組成的企業級應用。新的O(1)調度器包含仔2.6內核中，但是也向下兼容2.4內核。
新調度器另外一個重要的優勢是體現在對NUMA(non-uniform memory architecture)和SMP(symmetric multithreading processors)的支持上，例如INTEL@的超線程技術。
改進的NUMA支持保證了負載均衡不會發生在CECs或者NUMA節點之間，除非發生一個節點的超出負載限度。
三、Linux的內存架構
今天我們面對選擇32位操作系統還是64位操作系統的情況。對企業級用戶它們之間最大的區別是64位操作系統可以支持大於4GB的內存定址。從性能角度來講，我們需要了解32位和64位操作系統都是如何進行物理內存和虛擬內存的映射的。
在上面圖示中我們可以看到64位和32位Linux內核在定址上有著顯著的不同。
在32位架構中，比如IA-32，Linux內核可以直接定址的范圍只有物理內存的第一個GB(如果去掉保留部分還剩下896MB)，訪問內存必須被映射到這小於1GB的所謂ZONE_NORMAL空間中，這個操作是由應用程序完成的。但是分配在ZONE_HIGHMEM中的內存頁將導致性能的降低。
在另一方面，64位架構比如x86-64(也稱作EM64T或者AMD64)。ZONE_NORMAL空間將擴展到64GB或者128GB(實際上可以更多，但是這個數值受到操作系統本身支持內存容量的限制)。正如我們看到的，使用64位操作系統我們排除了因ZONE_HIGHMEM部分內存對性能的影響的情況。
實際中，在32位架構下，由於上面所描述的內存定址問題，對於大內存，高負載應用，會導致死機或嚴重緩慢等問題。雖然使用hugemen核心可緩解，但採取x86_64架構是最佳的解決辦法。
四、虛擬內存管理
因為操作系統將內存都映射為虛擬內存，所以操作系統的物理內存結構對用戶和應用來說通常都是不可見的。如果想要理解Linux系統內存的調優，我們必須了解Linux的虛擬內存機制。應用程序並不分配物理內存，而是向Linux內核請求一部分映射為虛擬內存的內存空間。如下圖所示虛擬內存並不一定是映射物理內存中的空間，如果應用程序有一個大容量的請求，也可能會被映射到在磁碟子系統中的swap空間中。
另外要提到的是，通常應用程序不直接將數據寫到磁碟子系統中，而是寫入緩存和緩沖區中。Bdflush守護進程將定時將緩存或者緩沖區中的數據寫到硬碟上。
Linux內核處理數據寫入磁碟子系統和管理磁碟緩存是緊密聯系在一起的。相對於其他的操作系統都是在內存中分配指定的一部分作為磁碟緩存，Linux處理內存更加有效，默認情況下虛擬內存管理器分配所有可用內存空間作為磁碟緩存，這就是為什麼有時我們觀察一個配置有數G內存的Linux系統可用內存只有20MB的原因。
同時Linux使用swap空間的機制也是相當高效率的，如上圖所示虛擬內存空間是由物理內存和磁碟子系統中的swap空間共同組成的。如果虛擬內存管理器發現一個已經分配完成的內存分頁已經長時間沒有被調用，它將把這部分內存分頁移到swap空間中。經常我們會發現一些守護進程，比如getty，會隨系統啟動但是卻很少會被應用到。這時為了釋放昂貴的主內存資源，系統會將這部分內存分頁移動到swap空間中。上述就是Linux使用swap空間的機制，當swap分區使用超過50%時，並不意味著物理內存的使用已經達到瓶頸了，swap空間只是Linux內核更好的使用系統資源的一種方法。
簡單理解：Swap usage只表示了Linux管理內存的有效性。對識別內存瓶頸來說，Swap In/Out才是一個比較又意義的依據，如果Swap In/Out的值長期保持在每秒200到300個頁面通常就表示系統可能存在內存的瓶頸。下面的事例是好的狀態：
引用
# vmstat
procs ———–memory————- —swap– —–io—- –system– —-cpu—-
r b swpd free buff cache si so bi bo in cs us sy id wa
1 0 5696 6904 28192 50496 0 0 88 117 61 29 11 8 80 1
五、模塊化的I/O調度器
就象我們知道的Linux2.6內核為我們帶來了很多新的特性，這其中就包括了新的I/O調度機制。舊的2.4內核使用一個單一的I/O調度器，2.6 內核為我們提供了四個可選擇的I/O調度器。因為Linux系統應用在很廣闊的范圍里，不同的應用對I/O設備和負載的要求都不相同，例如一個筆記本電腦和一個10000用戶的資料庫伺服器對I/O的要求肯定有著很大的區別。
引用
(1).Anticipatory
anticipatory I/O調度器創建假設一個塊設備只有一個物理的查找磁頭(例如一個單獨的SATA硬碟)，正如anticipatory調度器名字一樣，anticipatory調度器使用「anticipatory」的演算法寫入硬碟一個比較大的數據流代替寫入多個隨機的小的數據流，這樣有可能導致寫 I/O操作的一些延時。這個調度器適用於通常的一些應用，比如大部分的個人電腦。
(2).Complete Fair Queuing (CFQ)
Complete Fair Queuing(CFQ)調度器是Red Flag DC Server 5使用的標准演算法。CFQ調度器使用QoS策略為系統內的所有任務分配相同的帶寬。CFQ調度器適用於有大量計算進程的多用戶系統。它試圖避免進程被餓死和實現了比較低的延遲。
(3).Deadline
deadline調度器是使用deadline演算法的輪詢的調度器，提供對I/O子系統接近實時的操作，deadline調度器提供了很小的延遲和維持一個很好的磁碟吞吐量。如果使用deadline演算法請確保進程資源分配不會出現問題。
(4).NOOP
NOOP調度器是一個簡化的調度程序它只作最基本的合並與排序。與桌面系統的關系不是很大，主要用在一些特殊的軟體與硬體環境下，這些軟體與硬體一般都擁有自己的調度機制對內核支持的要求很小，這很適合一些嵌入式系統環境。作為桌面用戶我們一般不會選擇它。
六、網路子系統
新的網路中斷緩和(NAPI)對網路子系統帶來了改變，提高了大流量網路的性能。Linux內核在處理網路堆棧時，相比降低系統佔用率和高吞吐量更關注可靠性和低延遲。所以在某些情況下，Linux建立一個防火牆或者文件、列印、資料庫等企業級應用的性能可能會低於相同配置的Windows伺服器。
在傳統的處理網路封包的方式中，如下圖藍色箭頭所描述的，一個乙太網封包到達網卡介面後，如果MAC地址相符合會被送到網卡的緩沖區中。網卡然後將封包移到操作系統內核的網路緩沖區中並且對CPU發出一個硬中斷，CPU會處理這個封包到相應的網路堆棧中，可能是一個TCP埠或者Apache應用中。
這是一個處理網路封包的簡單的流程，但從中我們可以看到這個處理方式的缺點。正如我們看到的，每次適合網路封包到達網路介面都將對CPU發出一個硬中斷信號，中斷CPU正在處理的其他任務，導致切換動作和對CPU緩存的操作。你可能認為當只有少量的網路封包到達網卡的情況下這並不是個問題，但是千兆網路和現代的應用將帶來每秒鍾成千上萬的網路數據，這就有可能對性能造成不良的影響。
正是因為這個情況，NAPI在處理網路通訊的時候引入了計數機制。對第一個封包，NAPI以傳統的方式進行處理，但是對後面的封包，網卡引入了POLL 的輪詢機制：如果一個封包在網卡DMA環的緩存中，就不再為這個封包申請新的中斷，直到最後一個封包被處理或者緩沖區被耗盡。這樣就有效的減少了因為過多的中斷CPU對系統性能的影響。同時，NAPI通過創建可以被多處理器執行的軟中斷改善了系統的可擴展性。NAPI將為大量的企業級多處理器平台帶來幫助，它要求一個啟用NAPI的驅動程序。在今天很多驅動程序默認沒有啟用NAPI，這就為我們調優網路子系統的性能提供了更廣闊的空間。
七、理解Linux調優參數
因為Linux是一個開源操作系統，所以又大量可用的性能監測工具。對這些工具的選擇取決於你的個人喜好和對數據細節的要求。所有的性能監測工具都是按照同樣的規則來工作的，所以無論你使用哪種監測工具都需要理解這些參數。下面列出了一些重要的參數，有效的理解它們是很有用處的。
(1)處理器參數
引用
・CPU utilization
這是一個很簡單的參數，它直觀的描述了每個CPU的利用率。在xSeries架構中，如果CPU的利用率長時間的超過80%，就可能是出現了處理器的瓶頸。
・Runable processes
這個值描述了正在准備被執行的進程，在一個持續時間里這個值不應該超過物理CPU數量的10倍，否則CPU方面就可能存在瓶頸。
・Blocked
描述了那些因為等待I/O操作結束而不能被執行的進程，Blocked可能指出你正面臨I/O瓶頸。
・User time
描述了處理用戶進程的百分比，包括nice time。如果User time的值很高，說明系統性能用在處理實際的工作。
・System time
描述了CPU花費在處理內核操作包括IRQ和軟體中斷上面的百分比。如果system time很高說明系統可能存在網路或者驅動堆棧方面的瓶頸。一個系統通常只花費很少的時間去處理內核的操作。
・Idle time
描述了CPU空閑的百分比。
・Nice time
描述了CPU花費在處理re-nicing進程的百分比。
・Context switch
系統中線程之間進行交換的數量。
・Waiting
CPU花費在等待I/O操作上的總時間，與blocked相似，一個系統不應該花費太多的時間在等待I/O操作上，否則你應該進一步檢測I/O子系統是否存在瓶頸。
・Interrupts
Interrupts 值包括硬Interrupts和軟Interrupts，硬Interrupts會對系統性能帶來更多的不利影響。高的Interrupts值指出系統可能存在一個軟體的瓶頸，可能是內核或者驅動程序。注意Interrupts值中包括CPU時鍾導致的中斷(現代的xServer系統每秒1000個 Interrupts值)。
(2)內存參數
引用
・Free memory
相比其他操作系統，Linux空閑內存的值不應該做為一個性能參考的重要指標，因為就像我們之前提到過的，Linux內核會分配大量沒有被使用的內存作為文件系統的緩存，所以這個值通常都比較小。
・Swap usage
這個值描述了已經被使用的swap空間。Swap usage只表示了Linux管理內存的有效性。對識別內存瓶頸來說，Swap In/Out才是一個比較又意義的依據，如果Swap In/Out的值長期保持在每秒200到300個頁面通常就表示系統可能存在內存的瓶頸。
・Buffer and cache
這個值描述了為文件系統和塊設備分配的緩存。在Red Flag DC Server 5版本中,你可以通過修改/proc/sys/vm中的page_cache_tuning來調整空閑內存中作為緩存的數量。
・Slabs
描述了內核使用的內存空間，注意內核的頁面是不能被交換到磁碟上的。
・Active versus inactive memory
提供了關於系統內存的active內存信息，Inactive內存是被kswapd守護進程交換到磁碟上的空間。
(3)網路參數
引用
・Packets received and sent
這個參數表示了一個指定網卡接收和發送的數據包的數量。
・Bytes received and sent
這個參數表示了一個指定網卡接收和發送的數據包的位元組數。
・Collisions per second
這個值提供了發生在指定網卡上的網路沖突的數量。持續的出現這個值代表在網路架構上出現了瓶頸，而不是在伺服器端出現的問題。在正常配置的網路中沖突是非常少見的，除非用戶的網路環境都是由hub組成。
・Packets dropped
這個值表示了被內核丟掉的數據包數量，可能是因為防火牆或者是網路緩存的缺乏。
・Overruns
Overruns表達了超出網路介面緩存的次數，這個參數應該和packets dropped值聯繫到一起來判斷是否存在在網路緩存或者網路隊列過長方面的瓶頸。
・Errors 這個值記錄了標志為失敗的幀的數量。這個可能由錯誤的網路配置或者部分網線損壞導致，在銅口千兆乙太網環境中部分網線的損害是影響性能的一個重要因素。
(4)塊設備參數
引用
・Iowait
CPU等待I/O操作所花費的時間。這個值持續很高通常可能是I/O瓶頸所導致的。
・Average queue length
I/O請求的數量，通常一個磁碟隊列值為2到3為最佳情況，更高的值說明系統可能存在I/O瓶頸。
・Average wait
響應一個I/O操作的平均時間。Average wait包括實際I/O操作的時間和在I/O隊列里等待的時間。
・Transfers per second
描述每秒執行多少次I/O操作(包括讀和寫)。Transfers per second的值與kBytes per second結合起來可以幫助你估計系統的平均傳輸塊大小，這個傳輸塊大小通常和磁碟子系統的條帶化大小相符合可以獲得最好的性能。
・Blocks read/write per second
這個值表達了每秒讀寫的blocks數量，在2.6內核中blocks是1024bytes，在早些的內核版本中blocks可以是不同的大小，從512bytes到4kb。
・Kilobytes per second read/write
按照kb為單位表示讀寫塊設備的實際數據的數量。

⑨ linux內存佔用卡死分析

一、硬體問題

可以考慮分析以下幾點：

1、不要超頻CPU，如果已經超頻的先回復到原來的頻率

雖然平時運行沒有問題，但可能在高負載的使用中就會出現不可預料的故障了。特別是linux系統在某些應用上，是可以把硬體的性能發揮到極限的，但這樣的硬體運行Windows可能是沒有問題的。

2、確認電源供電充足

必須確保在高負載的狀態下，電源可以滿足負載。

3、使用memtest86檢查內存狀態

4、恢復BIOS到默認狀態

對於伺服器，可以使用自帶的監測工具進行測試，也是一個不錯的排錯方法。

二、軟體問題

如果已經基本排除硬體問題，那我們就必須考慮從軟體上去獲得死機狀態的系統信息了。

1、運氣足夠好的話，系統死機不一定是完全死掉（此時鍵盤可能還能響應），那我們就可以使用Sysrq大法。

前提是我們必須先打開sysrq功能：

#echo "1" > /proc/sys/kernel/sysrq

#setterm -blank

這樣，當系統出現問題的時候，我們可以使用：

引用

Alt+Sysrq-T 獲得進程系統堆棧信息

Alt+Sysrq-M 獲得內存分配信息

Alt+Sysrq-W 獲得當前寄存器信息

更多的熱鍵可以參考系統上的/usr/src/linux/Documentaion/sysrq.txt

其中，setterm -blank可以關閉字元下定時黑屏保護，方便記錄屏幕信息。

2、為了讓屏幕顯示更多的內核調試信息，可以修改控制台的顯示模式為80x25，在/boot/grub/menu.lst中對應的kernel一行最後，增加vga=0x305，如：

引用

kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=/LABEL=/1 vga=0x305

3、萬一鍵盤也不幸死掉了，那我們只能採用串口方式，把系統信息發送到另一台系統上，方法：

修改/boot/grub/menu.lst文件，在kernel一行最後增加核心參數"console=ttyS0 console=tty1"，如：

引用

kernel /boot/grub/vmlinuz-2.4.21-9.30AXsmp ro root=/LABEL=/1 console=ttyS0 console=tty1

然後，修改/etc/sysconfig/syslog，加入klogd選項"-c 7"，如：

引用

KLOGD_OPTIONS="-x -c 7"

重啟伺服器；進行測試：

1）使用串口直連線連接客戶機和伺服器，在客戶機上運行：

cat /dev/ttyS0

伺服器上運行：

echo hi > /dev/ttyS0

如果客戶機有"hi"輸出即可。

2）伺服器上運行：

echo w > /proc/sysrq-trigger

看看客戶機上是否有相應的內核信息輸出

3）伺服器上運行：

modprobe loop

看看客戶機上是否有相應的內核信息輸出

如果測試都通過的話，那麼在客戶機上運行：

cat /dev/ttyS0 | tee /tmp/result

當死機出現的時候，我們就可以從客戶機上看到需要的內核信息了（查看/tmp/result）。

三、總結

一般造成Linux系統死機的原因有：

系統硬體問題（SCSI卡，主板，RAID卡，HBA卡，網卡，硬碟等）

外圍硬體問題（網路等）

軟體問題（系統、應用軟體）

驅動bug（找新的驅動）

核心系統bug（到LKML看看，或更換核心再試）

系統設置（恢復到預設狀態，關閉防火牆等）

⑩ 什麼是linux內核

Linux是由Linus Torvalds開發的類UNIX的操作系統，Linux主要特點是開源的，因此我們可以免費使用來當做伺服器。

Linux嚴格分為兩個含義。

1.廣泛的Linux是指Linux發行版

2.狹義的Linux是指Linux內核

Linux內核是操作系統的基礎，介於硬體和軟體之間，並且內核位於操作系統中,操作系統將在硬體和軟體之間進行調解，Linux內核是操作系統核心部分的功能。

二：內核的基本性能

1.流程管理

在Linux內核中，程序的執行狀態以進程為單位進行管理。此外，內核為每個進程准備一個名為task_stract結構的數據結構。

2.進程調度程序

可執行狀態等待哪個進程以哪個順序執行,由於基本上不可能運行比CPU數量更多的進程，因此運行過程的效率非常重要。

3.內存管理

在Linux內核中，使用物理內存和虛擬內存管理數據。通過分配對應於物理存儲器的虛擬地址，而不是實際為每個進程分配物理存儲器地址，可以使用容量遠大於實際物理存儲器容量的存儲器。它使它成為可能。此外，由於每個進程都分配了自己的虛擬地址，因此每個進程的內存空間是獨立的，並且不會違反其他進程的內存。

3.文件系統

它以文件的形式提供存儲數據的訪問方法。所有數據都以文件的形式進行管理。/ Directory（根目錄）作為頂點，內核本身作為文件和目錄的集合存在。

導航:首頁 > 編程系統 > linuxsmp內存

linuxsmp內存

與linuxsmp內存相關的資料

友情鏈接