mysql大數據並發處理_大數據處理用mysql速度怎麼樣

1. 利用MySQL資料庫如何解決大數據量存儲問題

mysql解決大數據量存儲問題的方法是分表。
1.如何去分表
根據什麼策略把現有表中的數據分到多個表中，並且還有考慮到以後的擴展性上。

建立一張索引表，用戶id與資料庫id對應，（這里他將相同結構的表分在了不同的資料庫中進一步減少壓力，但同時對於數據的同步也需要通過其他手段來解決），其本質也是分表了同時分庫了。這么做的好處是便於以後的擴展，但損耗一點性能，因為會多一次查詢。這樣索引表可能會成為新的瓶頸，除非用戶不會一直增長哈。
我的做法屬於另一種，寫了個演算法通過計算某列值，按照一定規律將數據大致均分在每個分表中。至於擴展性，寫演算法時候考慮進去了以後增加分表數的問題了。
選擇哪種策略，是要看自己的表的業務特點了，方法沒有絕對的優缺，還是要根據自己的需求選取。
2.分表之後主鍵的維護
分表之前，主鍵就是自動遞增的bigint型。所以主鍵的格式已經提早被確定了，像什麼uuid之類的就被直接pass掉了。
還有想過自己寫一個主鍵生成程序，利用Java 的Atomic原子量特性，但是考慮還需要增加工作量並且高並發下，這里很可能是個隱患。
還有就是通過應用層上管理主鍵，如redis中有原子性的遞增。

2. 大數據處理用mysql速度怎麼樣

您好，主要是檢索某段時間內的模擬量值（select * from table where datatime between t1 and t2 ）,目前打算使用分表，分區的方式解決

不紙上談兵，說一下我的思路以及我的解決，拋磚引玉了
我最近正在解決這個問題
我現在的公司有三張表，是5億的數據，每天張表每天的增量是100w
每張表大概在10個columns左右
下面是我做的測試和對比
1.首先看engine,在大數據量情況下，在沒有做分區的情況下
mysiam比innodb在只讀的情況下，效率要高13％左右
2.在做了partition之後，你可以去讀一下mysql的官方文檔，其實對於partition，專門是對myisam做的優化，對於innodb，所有的數據是存在ibdata裡面的，所以即使你可以看到schema變了，其實沒有本質的變化
在分區出於同一個physical disk下面的情況下，提升大概只有1％
在分區在不同的physical disk下，我分到了三個不同的disks下，提升大概在3％，其實所謂的吞吐量，由很多因素決定的，比如你的explain parition時候可以看到，record在那一個分區，如果每個分區都有，其實本質上沒有解決讀的問題，這樣只會提升寫的效率。
另外一個問題在於，分區，你怎麼分，如果一張表，有三個column都是經常被用於做查詢條件的，其實是一件很悲慘的事情，因為你沒有辦法對所有的sql做針對性的分區，如果你只是如mysql官方文檔上說的，只對時間做一個分區，而且你也只用時間查詢的話，恭喜你
3.表主要用來讀還是寫，其實這個問題是不充分的，應該這樣問，你在寫入的時候，同時並發的查詢多麼？我的問題還比較簡單，因為MongoDB的shredding支持不能，在crush之後，還是回到mysql，所以在通常情況下，9am－9pm，寫入的情況很多，這個時候我會做一個view，view是基於最近被插入或者經常被查詢的，通過做view來分離讀取，就是說寫是在table上的，讀在進行邏輯判斷前是在view上操作的
4做一些archive table，比如先對這些大表做很多已有的統計分析，然後通過已有的分析＋增量來解決
5如果你用mysiam，還有一個問題你要注意，如果你的.configure的時候，加了一個max index length參數的時候，當你的record數大於制定長度的時候，這個index會被disable
6

照你的需求來看，可以有兩種方式，一種是分表，另一種是分區
首先是分表，就像你自己所說的，可以按月分表，可以按用戶ID分表等等，至於採用哪種方式分表，要看你的業務邏輯了，分表不好的地方就是查詢有時候需要跨多個表。

然後是分區，分區可以將表分離在若干不同的表空間上，用分而治之的方法來支撐無限膨脹的大表，給大表在物理一級的可管理性。將大表分割成較小的分區可以改善表的維護、備份、恢復、事務及查詢性能。分區的好處是分區的優點：

1增強可用性：如果表的一個分區由於系統故障而不能使用，表的其餘好的分區仍然可以使用；

2減少關閉時間：如果系統故障隻影響表的一部分分區，那麼只有這部分分區需要修復，故能比整個大表修復花的時間更少；

3維護輕松：如果需要重建表，獨立管理每個分區比管理單個大表要輕松得多；

4均衡I/O:可以把表的不同分區分配到不同的磁碟來平衡I/O改善性能；

5改善性能：對大表的查詢、增加、修改等操作可以分解到表的不同分區來並行執行，可使運行速度更快；

6分區對用戶透明，最終用戶感覺不到分區的存在。

3. mysql並發數問題

有可能造成影響，而且是很有可能造成影響。這也就是所謂的「一粒老內鼠屎壞了一鍋湯容」。不少的DBA都遇到過類似問題，就是一台伺服器上的多個應用數據，由於其中一個應用的程序編寫問題，導致這台伺服器上所有應用都受到牽連。不過按照你的描述，如果只是A1的死鎖，那麼A2是不會有問題的。但如果是是A1有太多的表掃描或者復雜運算導致資源緊張，那是會影響到A2的。

資料庫的並發一般都是指整個伺服器的並發，不論這個資料庫伺服器上有幾個庫

4. 5000人並發mysql資料庫怎麼處理

如果是訪問來不做任何數據自修改只需要配置伺服器（例如TOMCAT的最大並發量maxthreads），如果是需要修改數據的話就需要用到線程安全，不考慮插件的話就用synchronized,如果考慮到擴展性和實用性還是用消息隊列的MQ吧，網上很多

5. mysql資料庫最大能支持多少並發量

MySQL伺服器的最大並發連接數是16384。

受伺服器配置，及網路環境等制約，實際伺服器支持的並發連接數會小一些。主要決定因素有：

1、伺服器CPU及內存的配置。

2、網路的帶寬。互聯網連接中上行帶寬的影響尤為明顯。

(5)mysql大數據並發處理擴展閱讀：

優化資料庫結構：

組織資料庫的schema、表和欄位以降低I/O的開銷，將相關項保存在一起，並提前規劃，以便隨著數據量的增長，性能可以保持較高的水平。

設計數據表應盡量使其佔用的空間最小化，表的主鍵應盡可能短。·對於InnoDB表，主鍵所在的列在每個輔助索引條目中都是可復制的，因此如果有很多輔助索引，那麼一個短的主鍵可以節省大量空間。

僅創建需要改進查詢性能的索引。索引有助於檢索，但是會增加插入和更新操作的執行時間。

InnoDB的ChangeBuffering特性：

InnoDB提供了changebuffering的配置，可減少維護輔助索引所需的磁碟I/O。大規模的資料庫可能會遇到大量的表操作和大量的I/O，以保證輔助索引保持最新。當相關頁面不在緩沖池裡面時，InnoDB的changebuffer將會更改緩存到輔助索引條目。

從而避免因不能立即從磁碟讀取頁面而導致耗時的I/O操作。當頁面被載入到緩沖池時，緩沖的更改將被合並，更新的頁面之後會刷新到磁碟。這樣做可提高性能，適用於MySQL5.5及更高版本。

6. mysql 數據量超過百萬後怎麼處理

1、應盡量避免在 where 子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表掃描。
2、對查詢進行優化，應盡量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。
3、應盡量避免在 where 子句中對欄位進行 null 值判斷，否則將導致引擎放棄使用索引而進行全表掃描，如：
select id from t where num is null
可以在num上設置默認值0，確保表中num列沒有null值，然後這樣查詢：
select id from t where num=0
4、盡量避免在 where 子句中使用 or 來連接條件，否則將導致引擎放棄使用索引而進行全表掃描，如：
select id from t where num=10 or num=20
可以這樣查詢：
select id from t where num=10
union all
select id from t where num=20
5、下面的查詢也將導致全表掃描：(不能前置百分號)
select id from t where name like 『�1�7c%』
若要提高效率，可以考慮全文檢索。
6、in 和 not in 也要慎用，否則會導致全表掃描，如：
select id from t where num in(1,2,3)
對於連續的數值，能用 between 就不要用 in 了：
select id from t where num between 1 and 3
7、如果在 where 子句中使用參數，也會導致全表掃描。因為SQL只有在運行時才會解析局部變數，但優化程序不能將訪問計劃的選擇推遲到運行時；它必須在編譯時進行選擇。然而，如果在編譯時建立訪問計劃，變數的值還是未知的，因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描：
select id from t where num=@num
可以改為強制查詢使用索引：
select id from t with(index(索引名)) where num=@num
8、應盡量避免在 where 子句中對欄位進行表達式操作，這將導致引擎放棄使用索引而進行全表掃描。如：
select id from t where num/2=100
應改為:
select id from t where num=100*2
9、應盡量避免在where子句中對欄位進行函數操作，這將導致引擎放棄使用索引而進行全表掃描。如：
select id from t where substring(name,1,3)=』abc』–name以abc開頭的id
select id from t where datediff(day,createdate,』2005-11-30′)=0–』2005-11-30′生成的id
應改為:
select id from t where name like 『abc%』
select id from t where createdate>=』2005-11-30′ and createdate<』2005-12-1′
10、不要在 where 子句中的「=」左邊進行函數、算術運算或其他表達式運算，否則系統將可能無法正確使用索引。
11、在使用索引欄位作為條件時，如果該索引是復合索引，那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引，否則該索引將不會被使用，並且應盡可能的讓欄位順序與索引順序相一致。
12、不要寫一些沒有意義的查詢，如需要生成一個空表結構：
select col1,col2 into #t from t where 1=0
這類代碼不會返回任何結果集，但是會消耗系統資源的，應改成這樣：
create table #t(…)
13、很多時候用 exists 代替 in 是一個好的選擇：
select num from a where num in(select num from b)
用下面的語句替換：
select num from a where exists(select 1 from b where num=a.num)
14、並不是所有索引對查詢都有效，SQL是根據表中數據來進行查詢優化的，當索引列有大量數據重復時，SQL查詢可能不會去利用索引，如一表中有欄位 sex，male、female幾乎各一半，那麼即使在sex上建了索引也對查詢效率起不了作用。
15、索引並不是越多越好，索引固然可以提高相應的 select 的效率，但同時也降低了 insert 及 update 的效率，因為 insert 或 update 時有可能會重建索引，所以怎樣建索引需要慎重考慮，視具體情況而定。一個表的索引數最好不要超過6個，若太多則應考慮一些不常使用到的列上建的索引是否有必要。
16.應盡可能的避免更新 clustered 索引數據列，因為 clustered 索引數據列的順序就是表記錄的物理存儲順序，一旦該列值改變將導致整個表記錄的順序的調整，會耗費相當大的資源。若應用系統需要頻繁更新 clustered 索引數據列，那麼需要考慮是否應將該索引建為 clustered 索引。
17、盡量使用數字型欄位，若只含數值信息的欄位盡量不要設計為字元型，這會降低查詢和連接的性能，並會增加存儲開銷。這是因為引擎在處理查詢和連接時會逐個比較字元串中每一個字元，而對於數字型而言只需要比較一次就夠了。
18、盡可能的使用 varchar/nvarchar 代替 char/nchar ，因為首先變長欄位存儲空間小，可以節省存儲空間，其次對於查詢來說，在一個相對較小的欄位內搜索效率顯然要高些。
19、任何地方都不要使用 select * from t ，用具體的欄位列表代替「*」，不要返回用不到的任何欄位。
20、盡量使用表變數來代替臨時表。如果表變數包含大量數據，請注意索引非常有限（只有主鍵索引）。
21、避免頻繁創建和刪除臨時表，以減少系統表資源的消耗。
22、臨時表並不是不可使用，適當地使用它們可以使某些常式更有效，例如，當需要重復引用大型表或常用表中的某個數據集時。但是，對於一次性事件，最好使用導出表。
23、在新建臨時表時，如果一次性插入數據量很大，那麼可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果數據量不大，為了緩和系統表的資源，應先create table，然後insert。
24、如果使用到了臨時表，在存儲過程的最後務必將所有的臨時表顯式刪除，先 truncate table ，然後 drop table ，這樣可以避免系統表的較長時間鎖定。
25、盡量避免使用游標，因為游標的效率較差，如果游標操作的數據超過1萬行，那麼就應該考慮改寫。
26、使用基於游標的方法或臨時表方法之前，應先尋找基於集的解決方案來解決問題，基於集的方法通常更有效。
27、與臨時表一樣，游標並不是不可使用。對小型數據集使用 FAST_FORWARD 游標通常要優於其他逐行處理方法，尤其是在必須引用幾個表才能獲得所需的數據時。在結果集中包括「合計」的常式通常要比使用游標執行的速度快。如果開發時間允許，基於游標的方法和基於集的方法都可以嘗試一下，看哪一種方法的效果更好。
28、在所有的存儲過程和觸發器的開始處設置 SET NOCOUNT ON ，在結束時設置 SET NOCOUNT OFF 。無需在執行存儲過程和觸發器的每個語句後向客戶端發送 DONE_IN_PROC 消息。
29、盡量避免向客戶端返回大數據量，若數據量過大，應該考慮相應需求是否合理。
30、盡量避免大事務操作，提高系統並發能力。

7. MySQL處理達到百萬級數據時，如何優化

首先，數據量大的時候，應盡量避免全表掃描，應考慮在 where 及 order by 涉及的列上建立索引，建索引可以大大加快數據的檢索速度。但是，有些情況索引是不會起效的：
1、應盡量避免在 where 子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表掃描。
2、應盡量避免在 where 子句中對欄位進行 null 值判斷，否則將導致引擎放棄使用索引而進行全表掃描，如：
select id from t where num is null
可以在num上設置默認值0，確保表中num列沒有null值，然後這樣查詢：
select id from t where num=0
3、盡量避免在 where 子句中使用 or 來連接條件，否則將導致引擎放棄使用索引而進行全表掃描，如：
select id from t where num=10 or num=20
可以這樣查詢：
select id from t where num=10
union all
select id from t where num=20
4、下面的查詢也將導致全表掃描：
select id from t where name like 『%abc%』
若要提高效率，可以考慮全文檢索。
5、in 和 not in 也要慎用，否則會導致全表掃描，如：
select id from t where num in(1,2,3)
對於連續的數值，能用 between 就不要用 in 了：
select id from t where num between 1 and 3
6、如果在 where 子句中使用參數，也會導致全表掃描。因為SQL只有在運行時才會解析局部變數，但優化程序不能將訪問計劃的選擇推遲到運行時；它必須在編譯時進行選擇。然而，如果在編譯時建立訪問計劃，變數的值還是未知的，因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描：
select id from t where num=@num
可以改為強制查詢使用索引：
select id from t with(index(索引名)) where num=@num
7、應盡量避免在 where 子句中對欄位進行表達式操作，這將導致引擎放棄使用索引而進行全表掃描。如：
select id from t where num/2=100
應改為:
select id from t where num=100*2
8、應盡量避免在where子句中對欄位進行函數操作，這將導致引擎放棄使用索引而進行全表掃描。如：
select id from t where substring(name,1,3)=』abc』–name以abc開頭的id
select id from t where datediff(day,createdate,』2005-11-30′)=0–』2005-11-30′生成的id
應改為:
select id from t where name like 『abc%』
select id from t where createdate>=』2005-11-30′ and createdate<』2005-12-1′
9、不要在 where 子句中的「=」左邊進行函數、算術運算或其他表達式運算，否則系統將可能無法正確使用索引。
10、在使用索引欄位作為條件時，如果該索引是復合索引，那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引，否則該索引將不會被使用，並且應盡可能的讓欄位順序與索引順序相一致。
11、不要寫一些沒有意義的查詢，如需要生成一個空表結構：
select col1,col2 into #t from t where 1=0
這類代碼不會返回任何結果集，但是會消耗系統資源的，應改成這樣：
create table #t(…)
12、很多時候用 exists 代替 in 是一個好的選擇：
select num from a where num in(select num from b)
用下面的語句替換：
select num from a where exists(select 1 from b where num=a.num)

8. mysql資料庫怎麼解決高並發問題

通常情況下在PHP中MySQL查詢是串列的，如果能實現MySQL查詢的非同步化，就能實現多條SQL語句同時執內行容，這樣就能大大地縮短MySQL查詢的耗時，提高資料庫查詢的效率。目前MySQL的非同步查詢只在MySQLi擴展提供，查詢方法分別是：
1、使用MYSQLI_ASYNC模式執行mysqli::query
2、獲取非同步查詢結果：mysqli::reap_async_query
使用mysql非同步查詢，需要使用mysqlnd作為PHP的MySQL資料庫驅動。
使用MySQL非同步查詢，因為需要給所有查詢都創建一個新的連接，而MySQL服務端會為每個連接創建一個單獨的線程進行處理，如果創建的線程過多，則會造成線程切換引起系統負載過高。Swoole中的非同步MySQL其原理是通過MYSQLI_ASYNC模式查詢，然後獲取mysql連接的socket，加入到epoll事件循環中，當資料庫返回結果時會回調指定函數，這個過程是完全非同步非阻塞的。

9. 如何更改mysql的並發數（最大連接數）

mysql的最大連接數默來認是100,
這個自數值對於並發連接很多的資料庫應用是遠遠不夠的，當連接請求大於默認連接數後，就會出現無法連接資料庫的錯誤，因此我們需要把它適當調大一些。
調節方法為：
1.linux伺服器中
：改my.cnf中的值就行了
2.Windows伺服器中（我用的）:
在文件「my.ini」中找到段
[mysqld],在其中添加一行
max_connections=200###
200可以更改為想設置成的值.
然後重啟"mysql"服務。
/mysqladmin所在路徑/mysqladmin -uroot -p variables
輸入root資料庫賬號的密碼後可看到
| max_connections | 1000 |
其他需注意的：
在編程時，由於用mysql語句調用資料庫時，在每次之執行語句前，會做一個臨時的變數用來打開資料庫，所以你在使用mysql語句的時候，記得在每次調用完mysql之後就關閉mysql臨時變數。
另外對於訪問量大的，可以考慮直接寫到文本中，根據預測的訪問量，先定義假若是100個文件文件名依次為1.
txt,2.
txt
100.
txt。

導航:首頁 > 網路數據 > mysql大數據並發處理

mysql大數據並發處理

與mysql大數據並發處理相關的資料

友情鏈接