業務系統都部署到大數據平台_如何打造高性能大數據分析平台

⑴ 部署大數據業務七步走

部署大數據業務七步走
對於大數據，有三個重要的事實。首先，它並不是新趨勢。亞馬遜、微軟和谷歌自上世紀90年代就開始進行大數據工作。事實上，幾十年來，很多公司都一直在挖掘數據。可能由於當時只有資金雄厚的大型公司才能夠進行大數據研究，但大數據確實早已存在。現在，基於廉價的計算和存儲能力以及新工具和技術，幾乎每個人都可以使用高級數據挖掘技術和演算法了。
很多人認為大數據只是商業智能（BI）的新名稱，雖然這兩者有相似之處，但大數據超出了BI的范疇。
第二個事實：「大」是相對的。現在各行業各組織確實正面對創紀錄水平的數據增長。據IDC稱，我們每秒創造超過58 TB數據，到2020年，將擁有超過35ZB的存儲數據。然而，大數據並不一定是巨大的，大數據並不在於其規模，而在於你需要如何處理它。擁有100 TB的小公司可能也存在大數據問題，因為他們需要提取、分析數據，並作出決策。
第三，大數據處理中使用的數據的定義是廣泛的，它可以包含結構化和非結構化數據。對於一些公司來說，最重要的是大數據的元數據，或者關於數據的數據。
麥肯錫將大數據定義為「其規模超出傳統資料庫軟體的捕捉、存儲、管理和分析能力的數據集」,筆者補充了這一點：「這些數據集需要大量運行在數百甚至數千台伺服器（雲）的並行軟體（系統）來處理。」
以下是大數據成功的7個步驟：
第1步：承認存在問題。這往往是最難的一步。10年前，我們拒絕承認我們的網路已不再受防火牆和代理伺服器設置的保護，而我們不得不為員工遠程訪問開放基礎設施並擁抱互聯網。對於大數據，IT領導者需要評估其數據情況：
● 你的數據集讓你不堪重負嗎？
● 你不知道所有數據的位置？
● 你（或者企業領導者）沒有從你的數據中得到所需的信息？
● 企業領導沒有基於數據來做決策？
● 有可能提高IT在企業政策和戰略決策中的相關性嗎？
如果你像大多數公司一樣，部分或者所有這些問題的答案都是肯定的，那麼是時候控制你的數據，並從中挖掘出情報以提供給領導層做決定。
第2步：認識到大數據帶來的大機會。我們總是被告知要緊密聯系業務，「業務技術」這一說法已存在多年，但我們總是很難看到最新的軟體和流程如何直接影響收入或者全球經濟增長。而大數據卻可以。為什麼？因為信息就是力量，企業領導需要數據中挖掘出的信息來幫助企業競爭和發展。員工、客戶和市場產生的大量數據讓整個企業（從銷售到營銷部門）都不堪重負。而大數據能夠為你提供簡潔且實時的價值信息，幫助增加收入。[page]
第3步：制定大數據計劃。與任何計劃一樣，你開始就應該想到結果。企業需要知道什麼？他們需要回答的問題是什麼？在你開始使用Hadoop前，解決這些問題，並簽訂聯合協議。然後按照下列步驟操作（每個步驟可能需要數周或者數月）：
1、隔離屬於「大數據」的部分數據
2、分離「產品」大數據和「公司」大數據，例如人力資源分析需要的員工數據和電子商務平台的客戶或產品搜索數據需要分離
3、認識和了解你的數據的波峰和波谷
4、了解哪些技術允許實時（或接近實時）大數據處理
5、確定關鍵的解決方案/供應商
6、從小事做起，評估與發展-先做一個項目，讓你可以快速展示成果和ROI,然後轉移到下一個大數據項目
7、繼續分析、調整和輸入-大數據是靈活的，需要隨著數據、情報和企業要求的變化進行調整
第4步：利用分布式系統。大數據要求我們轉換對系統和基礎設施的想法。正如虛擬化從根本上改變了我們利用伺服器和應用程序的方式，分布式系統和處理使我們能夠管理大數據，因為分布式架構允許我們將問題分解成很多小任務，然後將這些任務分配到多個系統。好消息是，我們擁有了越來越多的攻擊和架構框架可以利用，包括Cassandra、Hadoop、VMware、Red Hat等。分布式系統並不新鮮，但大數據將其帶入到全新的水平，分布式方法包括：
● 多租戶架構
● 分布式資料庫
● 虛擬化
● 多線程
● 多核心CPU
● 並行處理
● 分布式文件系統
● 分布式負載平衡
● RAID演算法
第5步：從分布式到分散式。對大多數公司來說，這是真正的範式轉變，這也是大數據和雲計算結合的地方，鑒於互聯網是世界上最大的分布式和分散的系統，我們應該更加充分地利用互聯網來實現大數據。
我們很喜歡分布式實例或者計算處理，但分散式往往有種失去控制的感覺。這有必要嗎？對於大數據，採用分散式做法是必要的，因為由於過度和孤立的服務，所有未使用的實例和存儲容量都將浪費。
更重要的是，單靠分布式組件無法讓我們跟上數據增長的步伐。IDC估計，到2020年，產生的數據和數據中心容量之間的差距將達到60%.
然而，部分原因在於我們沒有充分利用我們已經擁有的容量。Gartner估計，大多數計算機、伺服器和網路只運行了30%的容量以准備好應對峰值或者未來增長。雖然我們可能永遠不會以90%或者100%的容量運行，但我們可以更好地利用現有的容量，節省數百萬美元，提高現有基礎設施的總體擁有成本（TCO）。
分散式方法的主要特點：
● 沒有中央瓶頸
● 大量的能力
● 有機的，需求推動容量增長
● 充分利用現有的基礎設施和邊緣設備
● 信息共享
● 假定每個人/每一個節點是「不可信任的」
● 地理分布：
○ 所有權和參與
○ 成本
○ 管理開銷
○ 風險
分散式方法存在很多很好的例子，其中最知名的就是開源運動。
分散式方法還有兩個新例子，筆者定義為分散式雲系統：CloudStack和OpenStack.我們仍然位於分散式方法的早期階段，但隨著數據繼續增長，這將是未來幾年的重要趨勢。[page]
第6步：僱傭/培養合適的人才和技能。雲計算並不意味著更少的IT工作，但雲計算和大數據的出現卻是意味著我們需要發展我們的技能和培養人才。在大數據世界，資料庫管理員等現有崗位變得更加重要。你還需要培養和招聘的其他職位包括：
● 數據科學家
● 架構師
● 隨機理論師（演算法）
● 業務分析師
● UX/UI專家
其中一些職位似乎是合乎邏輯的，但對於業務分析師和UX/UI專家，傳統上不屬於IT部門，你可以將這些人員安排在生產管理中，而在大數據解決方案中，他們需要攜手開發和運營團隊。這是因為你不能直接將大數據信息交給業務方面，使用圖表和易於理解的分析是關鍵。
此外，如果你還沒有整合開發/運營團隊來更好地管理雲計算部署，那麼現在可以這樣做了。這兩個團隊必須攜手合作來實現任何雲計算或者大數據戰略。
第7步：通過大數據來利用數據。正如IT職位可能開始更傾向於業務，IT需要改變其度量的方式。你的團隊中的每個人都應該熱衷於追蹤和記錄關鍵性能指標（KPI），這些應該符合業務指標，而不只是及時發布和交付高質量代碼。技術團隊的每個人都應該有明確的指標，並努力尋找新方法來提高指標結果。
大數據可能不是我們所有人想要的答案，但它確實給IT創造了幫助企業提高收入的機會。

⑵ 大數據平台是什麼什麼時候需要大數據平台如何建立大數據平台

首先我們要了解java語言和Linux操作系統，這兩個是學習大數據的基礎，學習的順序不分前後。

Java ：只要了解一些基礎即可，做大數據不需要很深的Java 技術，學java SE 就相當於有學習大數據基礎。

Linux：因為大數據相關軟體都是在Linux上運行的，所以Linux要學習的扎實一些，學好Linux對你快速掌握大數據相關技術會有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置，能少踩很多坑，學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。

Hadoop：這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞，所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN，HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面，MapRece是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快所以它叫數據的批處理。

Zookeeper：這是個萬金油，安裝Hadoop的HA的時候就會用到它，以後的Hbase也會用到它。它一般用來存放一些相互協作的信息，這些信息比較小一般不會超過1M，都是使用它的軟體對它有依賴，對於我們個人來講只需要把它安裝正確，讓它正常的run起來就可以了。

Mysql：我們學習完大數據的處理了，接下來學習學習小數據的處理工具mysql資料庫，因為一會裝hive的時候要用到，mysql需要掌握到什麼層度那?你能在Linux上把它安裝好，運行起來，會配置簡單的許可權，修改root的密碼，創建資料庫。這里主要的是學習SQL的語法，因為hive的語法和這個非常相似。

Sqoop：這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個，直接把Mysql數據表導出成文件再放到HDFS上也是一樣的，當然生產環境中使用要注意Mysql的壓力。

Hive：這個東西對於會SQL語法的來說就是神器，它能讓你處理大數據變的很簡單，不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。

Oozie：既然學會Hive了，我相信你一定需要這個東西，它可以幫你管理你的Hive或者MapRece、Spark腳本，還能檢查你的程序是否執行正確，出錯了給你發報警並能幫你重試程序，最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的，不然你看著那一大堆腳本，和密密麻麻的crond是不是有種想屎的感覺。

Hbase：這是Hadoop生態體系中的NOSQL資料庫，他的數據是按照key和value的形式存儲的並且key是唯一的，所以它能用來做數據的排重，它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。

Kafka：這是個比較好用的隊列工具，隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理，這樣與你協作的其它同學不會叫起來，你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來，你別怪他因為他不是搞大數據的，你可以跟他講我把數據放在隊列里你使用的時候一個個拿，這樣他就不在抱怨了馬上灰流流的去優化他的程序去了，因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS，這時你可以與一個叫Flume的工具配合使用，它是專門用來提供對數據進行簡單處理，並寫到各種數據接受方(比如Kafka)的。

Spark：它是用來彌補基於MapRece處理數據速度上的缺點，它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算，所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它，因為它們都是用JVM的。

⑶ 為什麼當下眾多企業都在著力搭建自己的大數據平台

（1）操作系統的選擇操作系統一般使用開源版的RedHat、Centos或者Debian作為底層的構建平台，要根據大數據平台所要搭建的數據分析工具可以支持的系統，正確的選擇操作系統的版本。

（4）數據存儲除了Hadoop中已廣泛應用於數據存儲的HDFS，常用的還有分布式、面向列的開源資料庫Hbase，HBase是一種key/value系統，部署在HDFS上，與Hadoop一樣，HBase的目標主要是依賴橫向擴展，通過不斷的增加廉價的商用伺服器，增加計算和存儲能力。
（5）選擇數據挖掘工具Hive可以將結構化的數據映射為一張資料庫表，並提供HQL的查詢功能，它是建立在Hadoop之上的數據倉庫基礎架構，是為了減少MapRece編寫工作的批處理系統，它的出現可以讓那些精通SQL技能、但是不熟悉MapRece、編程能力較弱和不擅長Java的用戶能夠在HDFS大規模數據集上很好的利用SQL語言查詢、匯總、分析數據。

⑷ 為什麼當下眾多企業都在著力搭建自己的大數據平台

大數據時代是未來的趨勢，為了適應社會發展，必須建立，這樣才能夠生存下去。

何為大數據

過去，大數據指的是那些數量龐大而復雜的數據集，其大小超出了常用軟體工具在可容忍的時間內捕獲、管理和處理數據的能力。一個更能達成共識的定義就是：大數據代表的信息資產的特點是具有非常龐大的數量，產生的速度非常快以及數據的多樣性，這些特點決定了需要特定的技術和分析方法來實現其價值的轉化。因此，其實近期「大數據」已經很少用來指數據集的大小了，現在更傾向於指人們使用預測分析、用戶行為分析或某些其他高級的數據分析方法，從數據中提取信息創造價值。因為數據本身的價值是無法直接可見的，但是通過各種數據計算和分析，可以將人們無法注意到的信息從數據中提取出來，創造價值。

這也是為什麼企業們紛紛想搭建大數據分析平台的原因。每天企業的內部運營支撐系統和外部與客戶的交互系統都能產生大量的數據，如何利用這些數據向企業內部和外部企業客戶提供具有極大商業價值的信息支撐和智能解決方案已經成為企業的重要的無形資產。根據企業量身定做的大數據分析平台，可為企業提供報表工具、分析工具、結合企業的實際需求進行的解決方案實施服務；企業的管理人員、業務分析人員等也可以通過web、手機或者其他移動設備訪問，以便隨時了解企業的關鍵指標和進行深度業務分析。

那麼，想而知，對於這個集團目前建設基礎數據平台和BI應用是未來一段時間的重點。通過數據平台和BI應用建設，他們可以搭建統一的大數據共享和分析平台，對各類業務進行前瞻性預測分析，並為集團各層次用戶提供統一的決策分析支持，提升數據共享與流轉能力。下圖為該集團的大數據分析平台的效果圖，可視為最終的建設目標。

⑸ 金融大數據平台應該如何搭建及應用是否有金融案例可以借鑒的

金融大數據平台的搭建和應用是兩個部分，對於金融大數據平台來說，這兩個部分都很重要。所以以下的部分我們從大數據平台和銀行可以分析哪些指標這兩個角度來闡述。

一、大數據平台

大數據平台的整體架構可以由以下幾個部分組成：

1.一個客戶

客戶主題：客戶屬性（客戶編號、客戶類別）、指標（資產總額、持有產品、交易筆數、交易金額、RFM）、簽約（渠道簽約、業務簽約）組成寬表

2.做了一筆交易

交易主題：交易金融屬性、業務類別、支付通道組成寬表。

3.使用哪個賬戶

賬戶主題：賬戶屬性（所屬客戶、開戶日期、所屬分行、產品、利率、成本）組成寬表

4.通過什麼渠道

渠道主題：

渠道屬性、維度、限額組成寬表

5.涉及哪類業務&產品

產品主題：產品屬性、維度、指標組成寬表

三、案例

鑒於篇幅問題，此處可以參考這篇文章：

華夏銀行：大數據技術服務業務需求，實現銷售高速增長

⑹ 大數據服務平台是什麼有什麼用

現今社會每來時每刻都在源產生數據，企業內部的經營交易信息、物聯網世界中的商品物流信息，互聯網世界中的人與人交互信息、位置信息等，我們身邊處處都有大數據。而大數據服務平台則是一個集數據接入、數據處理、數據存儲、查詢檢索、分析挖掘等、應用介面等為一體的平台，然後通過在線的方式來提供數據資源、數據能力等來驅動業務發展的服務，國外如Amazon ，Oracle，IBM，Microsoft...國內如華為，商理事等公司都是該服務的踐行者。

⑺ 如何打造高性能大數據分析平台

大數據分析系統作為一個關鍵性的系統在各個公司迅速崛起。但是這種海量規模的數據帶來了前所未有的性能挑戰。同時，如果大數據分析系統無法在第一時間為運營決策提供關鍵數據，那麼這樣的大數據分析系統一文不值。本文將從技術無關的角度討論一些提高性能的方法。下面我們將討論一些能夠應用在大數據分析系統不同階段的技巧和准則（例如數據提取，數據清洗，處理，存儲，以及介紹）。本文應作為一個通用准則，以確保最終的大數據分析平台能滿足性能要求。

1. 大數據是什麼？

大數據是最近IT界最常用的術語之一。然而對大數據的定義也不盡相同，所有已知的論點例如結構化的和非結構化、大規模的數據等等都不夠完整。大數據系統通常被認為具有數據的五個主要特徵，通常稱為數據的5 Vs。分別是大規模，多樣性，高效性、准確性和價值性。
互聯網是個神奇的大網，大數據開發和軟體定製也是一種模式，這里提供最詳細的報價，如果真的想做，可以來這里，這個手技的開始數字是一八七中間的是三兒零最後的是一四二五零，按照順序組合起來就可以找到，想說的是，除非想做或者了解這方面的內容，如果只是湊熱鬧的話，就不要來了。

據Gartner稱，大規模可以被定義為「在本（地）機數據採集和處理技術能力不足以為用戶帶來商業價值。當現有的技術能夠針對性的進行改造後來處理這種規模的數據就可以說是一個成功的大數據解決方案。

這種大規模的數據沒將不僅僅是來自於現有的數據源，同時也會來自於一些新興的數據源，例如常規（手持、工業）設備，日誌，汽車等，當然包括結構化的和非結構化的數據。

據Gartner稱，多樣性可以定義如下：「高度變異的信息資產，在生產和消費時不進行嚴格定義的包括多種形式、類型和結構的組合。同時還包括以前的歷史數據，由於技術的變革歷史數據同樣也成為多樣性數據之一「。

高效性可以被定義為來自不同源的數據到達的速度。從各種設備，感測器和其他有組織和無組織的數據流都在不斷進入IT系統。由此，實時分析和對於該數據的解釋（展示）的能力也應該隨之增加。

根據Gartner，高效性可以被定義如下：「高速的數據流I/O(生產和消費)，但主要聚焦在一個數據集內或多個數據集之間的數據生產的速率可變上」。

准確性，或真實性或叫做精度是數據的另一個重要組成方面。要做出正確的商業決策，當務之急是在數據上進行的所有分析必須是正確和准確（精確）的。

大數據系統可以提供巨大的商業價值。像電信，金融，電子商務，社交媒體等，已經認識到他們的數據是一個潛在的巨大的商機。他們可以預測用戶行為，並推薦相關產品，提供危險交易預警服務，等等。

與其他IT系統一樣，性能是大數據系統獲得成功的關鍵。本文的中心主旨是要說明如何讓大數據系統保證其性能。

2. 大數據系統應包含的功能模塊

大數據系統應該包含的功能模塊，首先是能夠從多種數據源獲取數據的功能，數據的預處理（例如，清洗，驗證等），存儲數據，數據處理、數據分析等（例如做預測分析??，生成在線使用建議等等），最後呈現和可視化的總結、匯總結果。

下圖描述了大數據系統的這些高層次的組件

描述本節的其餘部分簡要說明了每個組分，如圖1。

2.1 各種各樣的數據源當今的IT生態系統，需要對各種不同種類來源的數據進行分析。這些來源可能是從在線Web應用程序，批量上傳或feed，流媒體直播數據，來自工業、手持、家居感測的任何東西等等。

顯然從不同數據源獲取的數據具有不同的格式、使用不同的協議。例如，在線的Web應用程序可能會使用SOAP / XML格式通過HTTP發送數據，feed可能會來自於CSV文件，其他設備則可能使用MQTT通信協議。

由於這些單獨的系統的性能是不在大數據系統的控制范圍之內，並且通常這些系統都是外部應用程序，由第三方供應商或團隊提供並維護，所以本文將不會在深入到這些系統的性能分析中去。

2.2 數據採集第一步，獲取數據。這個過程包括分析，驗證，清洗，轉換，去重，然後存到適合你們公司的一個持久化設備中（硬碟、存儲、雲等）。

在下面的章節中，本文將重點介紹一些關於如何獲取數據方面的非常重要的技巧。請注意，本文將不討論各種數據採集技術的優缺點。

2.3 存儲數據第二步，一旦數據進入大數據系統，清洗，並轉化為所需格式時，這些過程都將在數據存儲到一個合適的持久化層中進行。

在下面的章節中，本文將介紹一些存儲方面的最佳實踐（包括邏輯上和物理上）。在本文結尾也會討論一部分涉及數據安全方面的問題。

2.4 數據處理和分析第三步，在這一階段中的一部分干凈數據是去規范化的，包括對一些相關的數據集的數據進行一些排序，在規定的時間間隔內進行數據結果歸集，執行機器學習演算法，預測分析等。

在下面的章節中，本文將針對大數據系統性能優化介紹一些進行數據處理和分析的最佳實踐。

2.5 數據的可視化和數據展示最後一個步驟，展示經過各個不同分析演算法處理過的數據結果。該步驟包括從預先計算匯總的結果（或其他類似數據集）中的讀取和用一種友好界面或者表格（圖表等等）的形式展示出來。這樣便於對於數據分析結果的理解。

3. 數據採集中的性能技巧

數據採集是各種來自不同數據源的數據進入大數據系統的第一步。這個步驟的性能將會直接決定在一個給定的時間段內大數據系統能夠處理的數據量的能力。

數據採集??過程基於對該系統的個性化需求，但一些常用執行的步驟是 - 解析傳入數據，做必要的驗證，數據清晰，例如數據去重，轉換格式，並將其存儲到某種持久層。

涉及數據採集過程的邏輯步驟示如下圖所示：

下面是一些性能方面的技巧：

來自不同數據源的傳輸應該是非同步的。可以使用文件來傳輸、或者使用面向消息的（MoM）中間件來實現。由於數據非同步傳輸，所以數據採集過程的吞吐量可以大大高於大數據系統的處理能力。非同步數據傳輸同樣可以在大數據系統和不同的數據源之間進行解耦。大數據基礎架構設計使得其很容易進行動態伸縮，數據採集的峰值流量對於大數據系統來說算是安全的。

如果數據是直接從一些外部資料庫中抽取的，確保拉取數據是使用批量的方式。

如果數據是從feed file解析，請務必使用合適的解析器。例如，如果從一個XML文件中讀取也有不同的解析器像JDOM，SAX，DOM等。類似地，對於CSV，JSON和其它這樣的格式，多個解析器和API是可供選擇。選擇能夠符合需求的性能最好的。

優先使用內置的驗證解決方案。大多數解析/驗證工作流程的通常運行在伺服器環境（ESB /應用伺服器）中。大部分的場景基本上都有現成的標准校驗工具。在大多數的情況下，這些標準的現成的工具一般來說要比你自己開發的工具性能要好很多。

類似地，如果數據XML格式的，優先使用XML（XSD）用於驗證。

即使解析器或者校等流程使用自定義的腳本來完成，例如使用java優先還是應該使用內置的函數庫或者開發框架。在大多數的情況下通常會比你開發任何自定義代碼快得多。

盡量提前濾掉無效數據，以便後續的處理流程都不用在無效數據上浪費過多的計算能力。

大多數系統處理無效數據的做法通常是存放在一個專門的表中，請在系統建設之初考慮這部分的資料庫存儲和其他額外的存儲開銷。

如果來自數據源的數據需要清洗，例如去掉一些不需要的信息，盡量保持所有數據源的抽取程序版本一致，確保一次處理的是一個大批量的數據，而不是一條記錄一條記錄的來處理。一般來說數據清洗需要進行表關聯。數據清洗中需要用到的靜態數據關聯一次，並且一次處理一個很大的批量就能夠大幅提高數據處理效率。

數據去重非常重要這個過程決定了主鍵的是由哪些欄位構成。通常主鍵都是時間戳或者id等可以追加的類型。一般情況下，每條記錄都可能根據主鍵進行索引來更新，所以最好能夠讓主鍵簡單一些，以保證在更新的時候檢索的性能。

來自多個源接收的數據可以是不同的格式。有時，需要進行數據移植，使接收到的數據從多種格式轉化成一種或一組標准格式。

和解析過程一樣，我們建議使用內置的工具，相比於你自己從零開發的工具性能會提高很多。

數據移植的過程一般是數據處理過程中最復雜、最緊急、消耗資源最多的一步。因此，確保在這一過程中盡可能多的使用並行計算。

一旦所有的數據採集的上述活動完成後，轉換後的數據通常存儲在某些持久層，以便以後分析處理，綜述，聚合等使用。

多種技術解決方案的存在是為了處理這種持久（RDBMS，NoSQL的分布式文件系統，如Hadoop和等）。

謹慎選擇一個能夠最大限度的滿足需求的解決方案。

4. 數據存儲中的性能技巧

一旦所有的數據採集步驟完成後，數據將進入持久層。

在本節中將討論一些與數據數據存儲性能相關的技巧包括物理存儲優化和邏輯存儲結構（數據模型）。這些技巧適用於所有的數據處理過程，無論是一些解析函數生的或最終輸出的數據還是預計算的匯總數據等。

首先選擇數據範式。您對數據的建模方式對性能有直接的影響，例如像數據冗餘，磁碟存儲容量等方面。對於一些簡單的文件導入資料庫中的場景，你也許需要保持數據原始的格式，對於另外一些場景，如執行一些分析計算聚集等，你可能不需要將數據範式化。

大多數的大數據系統使用NoSQL資料庫替代RDBMS處理數據。

不同的NoSQL資料庫適用不同的場景，一部分在select時性能更好，有些是在插入或者更新性能更好。

資料庫分為行存儲和列存儲。

具體的資料庫選型依賴於你的具體需求（例如，你的應用程序的資料庫讀寫比）。

同樣每個資料庫都會根據不同的配置從而控制這些資料庫用於資料庫復制備份或者嚴格保持數據一致性?這些設置會直接影響資料庫性能。在資料庫技術選型前一定要注意。

壓縮率、緩沖池、超時的大小，和緩存的對於不同的NoSQL資料庫來說配置都是不同的，同時對資料庫性能的影響也是不一樣的。

數據Sharding和分區是這些資料庫的另一個非常重要的功能。數據Sharding的方式能夠對系統的性能產生巨大的影響，所以在數據Sharding和分區時請謹慎選擇。

並非所有的NoSQL資料庫都內置了支持連接，排序，匯總，過濾器，索引等。

如果有需要還是建議使用內置的類似功能，因為自己開發的還是不靈。

NoSQLs內置了壓縮、編解碼器和數據移植工具。如果這些可以滿足您的部分需求，那麼優先選擇使用這些內置的功能。這些工具可以執行各種各樣的任務，如格式轉換、壓縮數據等，使用內置的工具不僅能夠帶來更好的性能還可以降低網路的使用率。

許多NoSQL資料庫支持多種類型的文件系統。其中包括本地文件系統，分布式文件系統，甚至基於雲的存儲解決方案。

如果在互動式需求上有嚴格的要求，否則還是盡量嘗試使用NoSQL本地（內置）文件系統（例如HBase 使用HDFS）。

這是因為，如果使用一些外部文件系統/格式，則需要對數據進行相應的編解碼/數據移植。它將在整個讀/寫過程中增加原本不必要的冗餘處理。

大數據系統的數據模型一般來說需要根據需求用例來綜合設計。與此形成鮮明對比的是RDMBS數據建模技術基本都是設計成為一個通用的模型，用外鍵和表之間的關系用來描述數據實體與現實世界之間的交互。

在硬體一級，本地RAID模式也許不太適用。請考慮使用SAN存儲。

5. 數據處理分析中的性能技巧

數據處理和分析是一個大數據系統的核心。像聚合，預測，聚集，和其它這樣的邏輯操作都需要在這一步完成。

本節討論一些數據處理性能方面的技巧。需要注意的是大數據系統架構有兩個組成部分，實時數據流處理和批量數據處理。本節涵蓋數據處理的各個方面。

在細節評估和數據格式和模型後選擇適當的數據處理框架。

其中一些框架適用於批量數據處理，而另外一些適用於實時數據處理。

同樣一些框架使用內存模式，另外一些是基於磁碟io處理模式。

有些框架擅長高度並行計算，這樣能夠大大提高數據效率。

基於內存的框架性能明顯優於基於磁碟io的框架，但是同時成本也可想而知。

概括地說，當務之急是選擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求也無法滿足非功能需求，當然也包括性能需求。

一些這些框架將數據劃分成較小的塊。這些小數據塊由各個作業獨立處理。協調器管理所有這些獨立的子作業?在數據分塊是需要當心。

該數據快越小，就會產生越多的作業，這樣就會增加系統初始化作業和清理作業的負擔。

如果數據快太大，數據傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡，長時間在一台伺服器上運行一個大作業，而其他伺服器就會等待。

不要忘了查看一個任務的作業總數。在必要時調整這個參數。

最好實時監控數據塊的傳輸。在本機機型io的效率會更高，這么做也會帶來一個副作用就是需要將數據塊的冗餘參數提高（一般hadoop默認是3份）這樣又會反作用使得系統性能下降。

此外，實時數據流需要與批量數據處理的結果進行合並。設計系統時盡量減少對其他作業的影響。

大多數情況下同一數據集需要經過多次計算。這種情況可能是由於數據抓取等初始步驟就有報錯，或者某些業務流程發生變化，值得一提的是舊數據也是如此。設計系統時需要注意這個地方的容錯。

這意味著你可能需要存儲原始數據的時間較長，因此需要更多的存儲。

數據結果輸出後應該保存成用戶期望看到的格式。例如，如果最終的結果是用戶要求按照每周的時間序列匯總輸出，那麼你就要將結果以周為單位進行匯總保存。

為了達到這個目標，大數據系統的資料庫建模就要在滿足用例的前提下進行。例如，大數據系統經常會輸出一些結構化的數據表，這樣在展示輸出上就有很大的優勢。

更常見的是，這可能會這將會讓用戶感覺到性能問題。例如用戶只需要上周的數據匯總結果，如果在數據規模較大的時候按照每周來匯總數據，這樣就會大大降低數據處理能力。

一些框架提供了大數據查詢懶評價功能。在數據沒有在其他地方被使用時效果不錯。

實時監控系統的性能，這樣能夠幫助你預估作業的完成時間。

6. 數據可視化和展示中的性能技巧

精心設計的高性能大數據系統通過對數據的深入分析，能夠提供有價值戰略指導。這就是可視化的用武之地。良好的可視化幫助用戶獲取數據的多維度透視視圖。

需要注意的是傳統的BI和報告工具，或用於構建自定義報表系統無法大規模擴展滿足大數據系統的可視化需求。同時，許多COTS可視化工具現已上市。

本文將不會對這些個別工具如何進行調節，而是聚焦在一些通用的技術，幫助您能打造可視化層。

確保可視化層顯示的數據都是從最後的匯總輸出表中取得的數據。這些總結表可以根據時間短進行匯總，建議使用分類或者用例進行匯總。這么做可以避免直接從可視化層讀取整個原始數據。

這不僅最大限度地減少數據傳輸，而且當用戶在線查看在報告時還有助於避免性能卡頓問題。

重分利用大化可視化工具的緩存。緩存可以對可視化層的整體性能產生非常不錯的影響。

物化視圖是可以提高性能的另一個重要的技術。

大部分可視化工具允許通過增加線程數來提高請求響應的速度。如果資源足夠、訪問量較大那麼這是提高系統性能的好辦法。

盡量提前將數據進行預處理，如果一些數據必須在運行時計算請將運行時計算簡化到最小。

可視化工具可以按照各種各樣的展示方法對應不同的讀取策略。其中一些是離線模式、提取模式或者在線連接模式。每種服務模式都是針對不同場景設計的。

同樣，一些工具可以進行增量數據同步。這最大限度地減少了數據傳輸，並將整個可視化過程固化下來。

保持像圖形，圖表等使用最小的尺寸。

大多數可視化框架和工具的使用可縮放矢量圖形（SVG）。使用SVG復雜的布局可能會產生嚴重的性能影響。

7. 數據安全以及對於性能的影響

像任何IT系統一樣安全性要求也對大數據系統的性能有很大的影響。在本節中，我們討論一下安全對大數據平台性能的影響。

- 首先確保所有的數據源都是經過認證的。即使所有的數據源都是安全的，並且沒有針對安全方面的需求，那麼你可以靈活設計一個安全模塊來配置實現。

- 數據進過一次認證，那麼就不要進行二次認證。如果實在需要進行二次認證，那麼使用一些類似於token的技術保存下來以便後續繼續使用。這將節省數據一遍遍認證的開銷。

- 您可能需要支持其他的認證方式，例如基於PKI解決方案或Kerberos。每一個都有不同的性能指標，在最終方案確定前需要將其考慮進去。

- 通常情況下數據壓縮後進入大數據處理系統。這么做好處非常明顯不細說。

- 針對不同演算法的效率、對cpu的使用量你需要進行比較來選出一個傳輸量、cpu使用量等方面均衡的壓縮演算法。

- 同樣，評估加密邏輯和演算法，然後再選擇。

- 明智的做法是敏感信息始終進行限制。

- 在審計跟蹤表或登錄時您可能需要維護記錄或類似的訪問，更新等不同的活動記錄。這可能需要根據不同的監管策略和用戶需求個性化的進行設計和修改。

- 注意，這種需求不僅增加了數據處理的復雜度，但會增加存儲成本。

- 盡量使用下層提供的安全技術，例如操作系統、資料庫等。這些安全解決方案會比你自己設計開發性能要好很多。

8. 總結

本文介紹了各種性能方面的技巧，這些技術性的知道可以作為打造大數據分析平台的一般准則。大數據分析平台非常復雜，為了滿足這種類型系統的性能需求，需要我們從開始建設的時候進行考量。

本文介紹的技術准則可以用在大數據平台建設的各個不同階段，包括安全如何影響大數據分析平台的性能。

導航:首頁 > 網路數據 > 業務系統都部署到大數據平台

業務系統都部署到大數據平台

一、大數據平台

三、案例

與業務系統都部署到大數據平台相關的資料

友情鏈接