javaepollsocket_IO模型及selectpollepoll和kqueue的區別

① IO模型及select，poll，epoll和kqueue的區別

（一）首先，介紹幾種常見的I/O模型及其區別，如下：
blocking I/O
nonblocking I/O
I/O multiplexing (select and poll)
signal driven I/O (SIGIO)
asynchronous I/O (the POSIX aio_functions)—————非同步IO模型最大的特點是完成後發回通知。
阻塞與否，取決於實現IO交換的方式。
非同步阻塞是基於select，select函數本身的實現方式是阻塞的，而採用select函數有個好處就是它可以同時監聽多個文件句柄.
非同步非阻塞直接在完成後通知，用戶進程只需要發起一個IO操作然後立即返回，等IO操作真正的完成以後，應用程序會得到IO操作完成的通知，此時用戶進程只需要對數據進行處理就好了，不需要進行實際的IO讀寫操作，因為真正的IO讀取或者寫入操作已經由內核完成了。

1 blocking I/O
這個不用多解釋吧，阻塞套接字。下圖是它調用過程的圖示：

重點解釋下上圖，下面例子都會講到。首先application調用 recvfrom()轉入kernel，注意kernel有2個過程，wait for data和 data from kernel to user。直到最後 complete後，recvfrom()才返回。此過程一直是阻塞的。

2 nonblocking I/O：
與blocking I/O對立的，非阻塞套接字，調用過程圖如下：

可以看見，如果直接操作它，那就是個輪詢。。直到內核緩沖區有數據。

3 I/O multiplexing (select and poll)
最常見的I/O復用模型，select。

select先阻塞，有活動套接字才返回。與blocking I/O相比，select會有兩次系統調用，但是select能處理多個套接字。

4 signal driven I/O (SIGIO)
只有UNIX系統支持，感興趣的課查閱相關資料

與I/O multiplexing (select and poll)相比，它的優勢是，免去了select的阻塞與輪詢，當有活躍套接字時，由注冊的handler處理。

5 asynchronous I/O (the POSIX aio_functions)
很少有*nix系統支持，windows的IOCP則是此模型

完全非同步的I/O復用機制，因為縱觀上面其它四種模型，至少都會在由kernel data to appliction時阻塞。而該模型是當完成後才通知application，可見是純非同步的。好像只有windows的完成埠是這個模型，效率也很出色。
6 下面是以上五種模型的比較

可以看出，越往後，阻塞越少，理論上效率也是最優。
=====================分割線==================================
5種模型的比較比較清晰了，剩下的就是把select,epoll,iocp,kqueue按號入座那就OK了。
select和iocp分別對應第3種與第5種模型，那麼epoll與kqueue呢？其實也於select屬於同一種模型，只是更高級一些，可以看作有了第4種模型的某些特性，如callback機制。
為什麼epoll,kqueue比select高級？
答案是，他們無輪詢。因為他們用callback取代了。想想看，當套接字比較多的時候，每次select()都要通過遍歷FD_SETSIZE個Socket來完成調度,不管哪個Socket是活躍的,都遍歷一遍。這會浪費很多CPU時間。如果能給套接字注冊某個回調函數，當他們活躍時，自動完成相關操作，那就避免了輪詢，這正是epoll與kqueue做的。
windows or *nix （IOCP or kqueue/epoll）？

誠然，Windows的IOCP非常出色，目前很少有支持asynchronous I/O的系統，但是由於其系統本身的局限性，大型伺服器還是在UNIX下。而且正如上面所述，kqueue/epoll 與 IOCP相比，就是多了一層從內核數據到應用層的阻塞，從而不能算作asynchronous I/O類。但是，這層小小的阻塞無足輕重，kqueue與epoll已經做得很優秀了。
提供一致的介面，IO Design Patterns
實際上，不管是哪種模型，都可以抽象一層出來，提供一致的介面，廣為人知的有ACE,Libevent（基於reactor模式）這些，他們都是跨平台的，而且他們自動選擇最優的I/O復用機制，用戶只需調用介面即可。說到這里又得說說2個設計模式，Reactor and Proactor。見：Reactor模式--VS--Proactor模式。Libevent是Reactor模型，ACE提供Proactor模型。實際都是對各種I/O復用機制的封裝。
java nio包是什麼I/O機制？
現在可以確定，目前的java本質是select()模型，可以檢查/jre/bin/nio.dll得知。至於java伺服器為什麼效率還不錯。。我也不得而知，可能是設計得比較好吧。。-_-。
=====================分割線==================================
總結一些重點：
只有IOCP是asynchronous I/O，其他機制或多或少都會有一點阻塞。
select低效是因為每次它都需要輪詢。但低效也是相對的，視情況而定，也可通過良好的設計改善
epoll, kqueue、select是Reacor模式，IOCP是Proactor模式。
java nio包是select模型。。
（二）epoll 與select的區別

1. 使用多進程或者多線程，但是這種方法會造成程序的復雜，而且對與進程與線程的創建維護也需要很多的開銷。（Apache伺服器是用的子進程的方式，優點可以隔離用戶）（同步阻塞IO）

2.一種較好的方式為I/O多路轉接（I/O multiplexing）（貌似也翻譯多路復用），先構造一張有關描述符的列表（epoll中為隊列），然後調用一個函數，直到這些描述符中的一個准備好時才返回，返回時告訴進程哪些I/O就緒。select和epoll這兩個機制都是多路I/O機制的解決方案，select為POSIX標准中的，而epoll為linux所特有的。

區別（epoll相對select優點）主要有三：
1.select的句柄數目受限，在linux/posix_types.h頭文件有這樣的聲明：#define __FD_SETSIZE 1024 表示select最多同時監聽1024個fd。而epoll沒有，它的限制是最大的打開文件句柄數目。

2.epoll的最大好處是不會隨著FD的數目增長而降低效率，在selec中採用輪詢處理，其中的數據結構類似一個數組的數據結構，而epoll是維護一個隊列，直接看隊列是不是空就可以了。epoll只會對"活躍"的socket進行操作---這是因為在內核實現中epoll是根據每個fd上面的callback函數實現的。那麼，只有"活躍"的socket才會主動的去調用 callback函數（把這個句柄加入隊列），其他idle狀態句柄則不會，在這點上，epoll實現了一個"偽"AIO。但是如果絕大部分的I/O都是「活躍的」，每個I/O埠使用率很高的話，epoll效率不一定比select高（可能是要維護隊列復雜）。

3.使用mmap加速內核與用戶空間的消息傳遞。無論是select,poll還是epoll都需要內核把FD消息通知給用戶空間，如何避免不必要的內存拷貝就很重要，在這點上，epoll是通過內核於用戶空間mmap同一塊內存實現的。

關於epoll工作模式ET，LT

epoll有兩種工作方式
ET：Edge Triggered，邊緣觸發。僅當狀態發生變化時才會通知，epoll_wait返回。換句話，就是對於一個事件，只通知一次。且只支持非阻塞的socket。
LT：Level Triggered，電平觸發（默認工作方式）。類似select/poll,只要還有沒有處理的事件就會一直通知，以LT方式調用epoll介面的時候，它就相當於一個速度比較快的poll.支持阻塞和不阻塞的socket。

三 Linux並發網路編程模型

1 Apache 模型，簡稱 PPC （ Process Per Connection ，）:為每個連接分配一個進程。主機分配給每個連接的時間和空間上代價較大，並且隨著連接的增多，大量進程間切換開銷也增長了。很難應對大量的客戶並發連接。
2 TPC 模型（ Thread Per Connection ）：每個連接一個線程。和PCC類似。
3 select 模型：I/O多路復用技術。
.1 每個連接對應一個描述。select模型受限於 FD_SETSIZE即進程最大打開的描述符數linux2.6.35為1024,實際上linux每個進程所能打開描數字的個數僅受限於內存大小，然而在設計select的系統調用時，卻是參考FD_SETSIZE的值。可通過重新編譯內核更改此值，但不能根治此問題，對於百萬級的用戶連接請求即便增加相應進程數，仍顯得杯水車薪呀。
.2select每次都會掃描一個文件描述符的集合，這個集合的大小是作為select第一個參數傳入的值。但是每個進程所能打開文件描述符若是增加了，掃描的效率也將減小。
.3內核到用戶空間，採用內存復制傳遞文件描述上發生的信息。
4 poll 模型：I/O多路復用技術。poll模型將不會受限於FD_SETSIZE，因為內核所掃描的文件描述符集合的大小是由用戶指定的，即poll的第二個參數。但仍有掃描效率和內存拷貝問題。
5 pselect模型：I/O多路復用技術。同select。
6 epoll模型：
.1)無文件描述字大小限制僅與內存大小相關
.2)epoll返回時已經明確的知道哪個socket fd發生了什麼事件，不用像select那樣再一個個比對。
.3)內核到用戶空間採用共享內存方式，傳遞消息。
四：FAQ
1、單個epoll並不能解決所有問題，特別是你的每個操作都比較費時的時候，因為epoll是串列處理的。所以你有還是必要建立線程池來發揮更大的效能。
2、如果fd被注冊到兩個epoll中時，如果有時間發生則兩個epoll都會觸發事件。
3、如果注冊到epoll中的fd被關閉，則其會自動被清除出epoll監聽列表。
4、如果多個事件同時觸發epoll，則多個事件會被聯合在一起返回。
5、epoll_wait會一直監聽epollhup事件發生，所以其不需要添加到events中。
6、為了避免大數據量io時，et模式下只處理一個fd,其他fd被餓死的情況發生。linux建議可以在fd聯繫到的結構中增加ready位，然後epoll_wait觸發事件之後僅將其置位為ready模式，然後在下邊輪詢ready fd列表。

② 高性能網路伺服器編程：為什麼linux下epoll

基本的IO編程過程（包括網路IO和文件IO）是，打開文件描述符（windows是handler，Java是stream或channel），多路捕獲（Multiplexe，即select和poll和epoll）IO可讀寫的狀態，而後可以讀寫的文件描述符進行IO讀寫，由於IO設備速度和CPU內存比速度會慢，為了更好的利用CPU和內存，會開多線程，每個線程讀寫一個文件描述符。
但C10K問題，讓我們意識到在超大數量的網路連接下，機器設備和網路速度不再是瓶頸，瓶頸在於操作系統和IO應用程序的溝通協作的方式。
舉個例子，一萬個socket連接過來，傳統的IO編程模型要開萬個線程來應對，還要注意，socket會關閉打開，一萬個線程要不斷的關閉線程重建線程，資源都浪費在這上面了，我們算建立一個線程耗1M內存，1萬個線程機器至少要10G內存，這在IA-32的機器架構下基本是不可能的（要開PAE），現在x64架構才有可能舒服點，要知道，這僅僅是粗略算的內存消耗。別的資源呢？
所以，高性能的網路編程（即IO編程），第一，需要松綁IO連接和應用程序線程的對應關系，這就是非阻塞（nonblocking）、非同步（asynchronous）的要求的由來（構造一個線程池，epoll監控到有數的fd，把fd傳入線程池，由這些worker thread來讀寫io）。第二，需要高性能的OS對IO設備可讀寫（數據來了）的通知方式：從level-triggered notification到edge-triggered notification，關於這個通知方式，我們稍後談。
需要注意非同步，不等於AIO（asynchronous IO），Linux的AIO和java的AIO都是實現非同步的一種方式，都是渣，這個我們也接下來會談到。
針對前面說的這兩點，我們看看select和poll的問題
這兩個函數都在每次調用的時候要求我們把需要監控（看看有沒有數據）的文件描述符，通過數組傳遞進入內核，內核每次都要掃描這些文件描述符，去理解它們，建立一個文件描述符和IO對應的數組（實際內核工作會有好點的實現方式，但可以這么理解先），以便IO來的時候，通知這些文件描述符，進而通知到進程里等待的這些select、poll。當有一萬個文件描述符要監控的時候呢（一萬個網路連接）？這個工作效率是很低的，資源要求卻很高。
我們看epoll
epoll很巧妙，分為三個函數，第一個函數創建一個session類似的東西，第二函數告訴內核維持這個session，並把屬於session內的fd傳給內核，第三個函數epoll_wait是真正的監控多個文件描述符函數，只需要告訴內核，我在等待哪個session，而session內的fd，內核早就分析過了，不再在每次epoll調用的時候分析，這就節省了內核大部分工作。這樣每次調用epoll，內核不再重新掃描fd數組，因為我們維持了session。
說道這里，只有一個字，開源，贊，眾人拾柴火焰高，贊。
epoll的效率還不僅僅體現在這里，在內核通知方式上，也改進了，我們先看select和poll的通知方式，也就是level-triggered notification，內核在被DMA中斷，捕獲到IO設備來數據後，本來只需要查找這個數據屬於哪個文件描述符，進而通知線程里等待的函數即可，但是，select和poll要求內核在通知階段還要繼續再掃描一次剛才所建立的內核fd和io對應的那個數組，因為應用程序可能沒有真正去讀上次通知有數據後的那些fd，應用程序上次沒讀，內核在這次select和poll調用的時候就得繼續通知，這個os和應用程序的溝通方式效率是低下的。只是方便編程而已（可以不去讀那個網路io，方正下次會繼續通知）。
於是epoll設計了另外一種通知方式：edge-triggered notification，在這個模式下，io設備來了數據，就只通知這些io設備對應的fd，上次通知過的fd不再通知，內核不再掃描一大堆fd了。
基於以上分析，我們可以看到epoll是專門針對大網路並發連接下的os和應用溝通協作上的一個設計，在linux下編網路伺服器，必然要採用這個，nginx、PHP的國產非同步框架swool、varnish，都是採用這個。
注意還要打開epoll的edge-triggered notification。而java的NIO和NIO.2都只是用了epoll，沒有打開edge-triggered notification，所以不如JBoss的Netty。
接下來我們談談AIO的問題，AIO希望的是，你select，poll，epoll都需要用一個函數去監控一大堆fd，那麼我AIO不需要了，你把fd告訴內核，你應用程序無需等待，內核會通過信號等軟中斷告訴應用程序，數據來了，你直接讀了，所以，用了AIO可以廢棄select，poll，epoll。
但linux的AIO的實現方式是內核和應用共享一片內存區域，應用通過檢測這個內存區域（避免調用nonblocking的read、write函數來測試是否來數據，因為即便調用nonblocking的read和write由於進程要切換用戶態和內核態，仍舊效率不高）來得知fd是否有數據，可是檢測內存區域畢竟不是實時的，你需要在線程里構造一個監控內存的循環，設置sleep，總的效率不如epoll這樣的實時通知。所以，AIO是渣，適合低並發的IO操作。所以java7引入的NIO.2引入的AIO對高並發的網路IO設計程序來說，也是渣，只有Netty的epoll+edge-triggered notification最牛，能在linux讓應用和OS取得最高效率的溝通。

導航:首頁 > 編程語言 > javaepollsocket

javaepollsocket

與javaepollsocket相關的資料

友情鏈接