大數據系統級_大數據/Hadoop平台開發工程師是做什麼的

大數據可視化系統（一）思邁特軟體Smartbi

思邁特軟體Smartbi是一款商業智能BI工具，做數據分析和可視化數據展現，以分析為主，提供多種數據接入方式，可視化功能強大，平台更適合掌握分析方法了解分析的思路的用戶，其他用戶的使用則依賴於分析師的結果輸出。

Smartbi也是小編找了很久感覺很不錯的一款大數據可視化系統。其中還有很多對數據處理的公式和方法，圖表也比較全面。相對於網路的echarts，Smartbi還是一款比較容易入手的數據分析工具。最後，Smartbi提供了免費的版本，功能齊全，更加適合個人對數據分析的學習和使用。

大數據可視化系統（二）ChartBlocks

ChartBlocks是一款網頁版的大數據可視化系統，在線使用。通過導入電子表格或者資料庫來構建可視化圖表。整個過程可以在圖表的向導指示下完成。它的圖表在HTML5的框架下，使用強大的javaScript庫D3js來創建圖表。

圖表是響應式的，可以和任何的屏幕尺寸及設備兼容。還可以將圖表嵌入任何網頁中。

大數據可視化系統（三）Tableau

Tableau公司將數據運算與美觀的圖表完美地嫁接在一起。它的程序很容易上手，各公司可以用它將大量數據拖放到數字」畫布」上，轉眼間就能創建好各種圖表。這一軟體的理念是，界面上的數據越容易操控，公司對自己在所在業務領域里的所作所為到底是正確還是錯誤，就能了解得越透徹。

它們都是為與大數據有關的組織設計的。企業使用這個工具非常方便，而且提供了閃電般的速度。還有一件事對這個工具是肯定的，Tableau具有用戶友好的特性，並與拖放功能兼容。但是在大數據方面的性能有所缺陷，每次都是實時查詢數據，如果數據量大，會卡頓。

大數據可視化系統（四）AntV

AntV是螞蟻金服的大數據可視化系統，主要包含專註解決流程與關系分析的圖表庫G6、適於對性能、體積、擴展性要求嚴苛場景下使用的移動端圖表庫F2以及一套完整的圖表使用指引和可視化設計規范。

已為阿里集團內外2000+個業務系統提供數據可視化能力，其中不乏日均千萬UV級的產品。

❷ 大數據/Hadoop平台開發工程師是做什麼的

大數據開發是大數據職業發展的方向之一，從工作內容，大數據開發主要負責處理回和大數據應用，偏重建設和答優化系統。

大數據開發其實分兩種：

第一類是編寫一些Hadoop、Spark的應用程序；

第二類是對大數據處理系統本身進行開發。通常才大公司里才有，一般他們都會搞自己的系統或者再對開源的做些二次開發，對理論和實踐要求的都更深一些，更有技術含量。

❸ 學大數據開發要學Java到什麼程度，需要學JavaEE,SSH嗎，誰能詳細解答一下

JAVASE不用學，學了也沒用。即便有公司做桌面開發，也基本不會用的。
SSH當然得學，若連SSH都沒學明白，就惦記起大數據，就真是想多了。先把JAVA玩成所謂高手水平，再把SSH學到精通，你才僅僅是能搞「小數據」。本人充其量也僅僅是在「小數據」這一級別，勉強混個溫飽，所以最多隻能跟你說說該怎麼學「小數據」了。
要玩「小數據」，你得先有辦法「取得數據」吧? 數據從哪來？表單提交來的。表單在哪？在網站上。所以你得先能搭個網站。否則連數據都得不到，又談什麼大小？
如何搭網站？先稍微學學html和javscript，知道ajax怎麼寫。這時候，你才能開始學Spring。Spring學完之後，你就能從後端獲取前端發來的請求，驗證表單，返回頁面，擁有數據來源了。
拿到數據之後。你得把數據存起來吧？所以你得會使資料庫吧。於是你得先學SQL，能基本操作資料庫的「增刪改查」。學完資料庫之後，怎麼在資料庫里的「表」，和java項目里的「類」之間，建立映射關系？這時候，你就得開始學Hibernate了。
Hibernate和Spring學到一半，就產生了一個問題，Hibernate的代碼寫在哪？Spring的代碼又寫在哪？它倆總不能「摻和」著寫吧？這時候你就需要MVC框架，所以得學Struts了。
等ssh全都學完，摸透，再簡單學學Linux，只要能部署就夠了，多學無用，能把網站搭出來就夠了。
這時候，你就算是入了「小數據」的門。之後再依次學會三層架構，領域驅動模型，MVVM，算是從「入門」走向"熟練"。
到這一步，你就算成為了一名合格的後端程序員了。然後，你才有必要去糾結，是該學人工智慧？還是大數據? 雲計算？等等。。。。
由於個人是主修C#的，JAVA只作為第二語言，框架部分也只學了前面所說的這些東西，因此關於JAVA的話題，只能跟你扯到這了。

❹ 大數據專業就業前景怎麼樣

未來3至5年，中國需要180萬數據人才，但截至目前，中國大數據從業人員只有約30萬人。同時，大數據行業選才的標准也在不斷變化。初期，大數據人才的需求主要集中在ETL研發、系統架構開發、數據倉庫研究等偏硬體領域，以IT、計算機背景的人才居多。隨著大數據往各垂直領域延伸發展，對統計學、數學專業的人才，數據分析、數據挖掘、人工智慧等偏軟體領域的需求加大。
一、大數據主要就業方向
開發類和大數據分析類。具體崗位如：大數據分析師、大數據工程師等。

「大數據分析師是用適當的統計分析方法對收集來的大量數據進行分析，強調的是數據的應用，側重於統計層面內容會多一些。比如做產品經理，可以通過數據建立金融模型，來推出一些理財產品。而大數據工程師則側重於技術，主要是圍繞大數據平台系統級的研發，偏開發層面。」華迎教授介紹：「我們把大數據分析在業務中使用的流程總結起來，分為以下幾個步驟：數據獲取和預處理、數據存儲管理、數據分析建模、數據可視化。在這個應用流程中，畢業生可以根據自己的興趣和特長，在不同的環節選擇就業。」
二、大數據工作領域
目前的大數據工作領域分了以下四大類：
1、數據開發工程師：負責數據接入、數據清洗、底層重構，業務主題建模等工作;大數據整體的計算平台開發與應用;
2、數據分析師：在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢，商務智能，出分析報告。
3、數據挖掘工程師：在多媒體、電商、搜索、社交等大數據相關行業里做機器學習演算法實現和分析。
4、科學研究方向：在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用。

❺ 大數據專業主要學什麼

什麼是大數據？
在英文里被稱為big data,或稱為巨量資料，就是當代海量數據構成的一個集合，包括了我們在互聯網上的一切信息。
大數據能幹什麼？
通過對大數據的抽取，管理，處理，並整理成為幫助我們做決策。列如：應用以犯罪預測，流感趨勢預測，選舉預測，商品推薦預測等等
大數據專業需要學什麼？
因為涉及對海量數據的分析，離不開的就是數學，很多很多的數學。按照我們學習計劃的安排來看，我在大一大二期間就學了有：數學分析，線性代數，概率統計，應用統計學，離散數學，常微分。相比起其他計算機專業來說，我們確實要學很多數學。然後什麼公共課就不用多說了，如：大學英語，大學物理，思想政治，毛概等等。在專業課上，我們首先要學的就是C語言基礎，然後就是數據結構，Python基礎，Java面向對象程序設計，數據結構與演算法，數學建模，大數據等，簡直不要太多了，留給圖看看吧
未完待寫
接著上一次內容
學大數據能做什麼工作？
分為三個大類，第一是大數據系統研發類，第二是大數據應用開發類，第三是大數據分析類
大數據分析師：大數據分析師要學會打破信息孤島利用各種數據源，在海量數據中尋找數據規律，在海量數據中發現數據異常。負責大數據數據分析和挖掘平台的規劃、開發、運營和優化；根據項目設計開發數據模型、數據挖掘和處理演算法；通過數據探索和模型的輸出進行分析，給出分析結果。
大數據工程師：主要是偏開發層面，指的是圍繞大數據系平台系統級的研發人員，熟練Hadoop大數據平台的核心框架，能夠使用Hadoop提供的通用演算法，熟練掌握Hadoop整個生態系統的組件如： Yarn，HBase、Hive、Pig等重要組件，能夠實現對平台監控、輔助運維系統的開發。
數據挖掘師/演算法工程師：數據建模、機器學習和演算法實現，需要業務理解、熟悉演算法和精通計算機編程。
數據架構師：高級演算法設計與優化;數據相關系統設計與優化，有垂直行業經驗最佳，需要平台級開發和架構設計能力。
數據科學家：據科學家是指能採用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識，並能尋找新的數據洞察的工程師或專家(不同於統計學家或分析師)。一個優秀的數據科學家需要具備的素質有：懂數據採集、懂數學演算法、懂數學軟體、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。
薪資待遇方面：
數據科學家->數據架構師==演算法工程師>大數據工程師>數據分析師

❻ 大數據時代大學哪些專業涉及大數據技術與應用

大數據時代大學哪些專業涉及大數據技術與應用

早在1980年，未來學家阿爾文？托夫勒在《第三次浪潮》一書中，就將大數據譽為「第三次浪潮的華彩樂章」。現在的大數據更是站在互聯網的風口浪尖上，是公眾津津樂道的熱門詞彙。同時這股熱潮也催熱了大學里的大數據專業。

到底什麼是大數據？本科專業中哪個專業是和它相對應的？一般開設在哪些院系？對外經濟貿易大學信息學院副院長華迎教授詳解這個大家關注的熱門專業。

一、專業解析

什麼是大數據？

進入互聯網時代，中國的網民人數已超7億，大數據的應用涉及到生活的方方面面。例如，你在網站上買書，商家就會根據你的喜好和其他購書者的評價給你推薦另外的書籍；手機定位數據和交通數據可以幫助城市規劃；甚至用戶的搜索習慣和股市都有很大關系。

在談到大數據的時候，人們往往知道的就是數據很大，但大數據≠大的數據。對外經濟貿易大學信息學院副院長華迎教授介紹：「現在的大數據包括來自於多種渠道的多類數據，其中主要來源網路數據。數據分析不是新的，一直都有，但是為什麼叫大數據呢？主要是因為網路數據的格式、體量、價值，都超出了傳統數據的規模。對這些海量信息的採集、存儲、分析、整合、控制而得到的數據就是大數據。大數據技術的意義不在於掌握龐大的數據信息，而在於對這些數據進行專業化處理，通過『加工』實現數據的『增值』，更好地輔助決策。」

數據科學與大數據技術專業

本科專業中和大數據相對應的是「數據科學與大數據技術」專業，它是2015年教育部公布的新增專業。2016年3月公布的《高校本科專業備案和審批結果》中，北京大學、對外經濟貿易大學和中南大學3所高校首批獲批開設「數據科學與大數據技術」專業。隨後第二年又有32所高校獲批「數據科學與大數據技術」專業。兩次獲批的名單中顯示，該專業學制為四年，大部分為工學。

「數據科學與大數據技術是個交叉性很強的專業，很難說完全歸屬於哪個獨立的學科。所以，不同的學校有的是信息學院申報，有的.是計算機學院牽頭申報，有的設在統計學院，還有的在經管學院。像北京大學這個專業是放在理學下，授予理學學位。大多數是設在工學計算機門類下，授予的是工學學位。」華迎教授說：「數據科學很早就存在，是個比較經典的學科，現在和大數據技術結合形成了這個專業。目前教育部設定的本科專業名稱為『數據科學與大數據技術』，專科名稱是『大數據技術與應用』。」

數據科學與大數據技術學什麼？

以對外經濟貿易大學該專業為例，專業知識結構包括數學、統計、計算機和大數據分析四大模塊，具體課程設置如下：

數學：數學分析一、數學分析二、高等代數、離散數學。統計學：概率論與數理統計、多元統計分析、隨機過程。計算機：數據結構、計算機組成原理、操作系統、資料庫系統原理、C++程序設計、Java程序設計、Python與大數據分析、科學計算與Matlab應用、R語言等。大數據分析：數據科學導論、機器學習與數據挖掘、信息檢索與數據處理、自然語言處理、智能計算、推薦系統原理、大數據分析技術基礎、數據可視化、大數據存儲與管理、大數據分析實踐等課程。

華迎教授介紹：「數據科學與大數據技術是一門實踐性很強的新興交叉復合型學科，無論是開設在哪個學院下，數學、統計學、計算機三大塊課程是必須得有。各高校在這幾門背景學科的基礎上，交叉融合其他的專業知識技能。如我校在數學、統計學、計算機知識體系模塊中又增加了體現學校特色的財經類行業應用和外語模塊，以提升學生的行業應用能力和國際化水平。根據各校偏重的專業方向，課程設置有所差異，感興趣的同學可以具體查看各校的專業和課程設置情況。」

二、專業與就業

行業增速快人才缺口180萬

隨著移動互聯網和智能終端的普及，信息技術與經濟社會的交匯融合，引發了數據迅猛增長。新摩爾定律認為，人類有史以來的數據總量，每過18個月就會翻一番。而海量的數據蘊含著巨大生產力和商機。

2011年至2014年四年間，我國大數據處於起步階段，每年均增長在20%以上。2015年，大數據市場規模已達到98.9億元。2016年增速達到45%，超過160億元。預計2020年，我國大數據市場規模將超過8000億元，有望成世界第一數據資源大國。但數據開放度低、技術薄弱、人才缺失、行業應用不深入等都是產業發展中亟待解決的問題。

根據領英發布《2016年中國最熱職位人才報告》顯示，有六類熱門職位的人才當前都處於供不應求狀態，稀缺程度各有不同，其中，數據分析人才的供給指數最低，僅為0.05，屬於高度稀缺。

中國商業聯合會數據分析專業委員會資料顯示，未來3至5年，中國需要180萬數據人才，但截至目前，中國大數據從業人員只有約30萬人。同時，大數據行業選才的標准也在不斷變化。初期，大數據人才的需求主要集中在ETL研發、系統架構開發、數據倉庫研究等偏硬體領域，以IT、計算機背景的人才居多。隨著大數據往各垂直領域延伸發展，對統計學、數學專業的人才，數據分析、數據挖掘、人工智慧等偏軟體領域的需求加大。

大數據主要就業方向

2015年9月國務院印發《促進大數據發展行動綱要》，系統部署大數據發展工作。《綱要》明確提出了七方面政策機制，其中第六條就是加強專業人才培養，建立健全多層次、多類型的大數據人才培養體系。目前，大數據主要有三大就業方向：大數據系統研發類、大數據應用開發類和大數據分析類。具體崗位如：大數據分析師、大數據工程師等。

「大數據分析師是用適當的統計分析方法對收集來的大量數據進行分析，強調的是數據的應用，側重於統計層面內容會多一些。比如做產品經理，可以通過數據建立金融模型，來推出一些理財產品。而大數據工程師則側重於技術，主要是圍繞大數據平台系統級的研發，偏開發層面。」華迎教授介紹：「我們把大數據分析在業務中使用的流程總結起來，分為以下幾個步驟：數據獲取和預處理、數據存儲管理、數據分析建模、數據可視化。在這個應用流程中，畢業生可以根據自己的興趣和特長，在不同的環節選擇就業。」

三、報考指南

院校開設情況

教育部關於公布2015年度普通高等學校本科專業備案和審批結果的通知教育部關於公布2016年度普通高等學校本科專業備案和審批結果的通知在「教育部2015年度普通高等學校本科專業備案和審批結果」中北京大學、中南大學、對外經貿大學成為首批開設「數據科學與大數據技術」本科專業的高校，隨後中國人民大學、北京郵電大學、復旦大學等32所高校成為第二批成功申請該專業的高校。目前，我國已有35所高校獲批「數據科學與大數據技術」本科專業，第三批申請結果也即將公布。

數據科學與大數據技術是個交叉性強、跨學科的專業，很難說是完全歸屬與那個獨立的學科。高校牽頭申報的學院不同，培養重點和授予的學位可能不一樣。因為課程來自於不同的學院，也有高校是聯合一些學院單獨成立機構來申報。從名單可以看出，在大部分開設院校中該專業都屬於工學類，有個別院校將其歸屬在理學門類，授予理學學位。

有志於學習數據科學與大數據技術專業的學生，可以從大學的傳統優勢領域和行業背景考慮選擇。比如，復旦大學的大數據技術本科專業是設在大數據學院下；北京大學是在數學院開設了該專業，偏數學的內容更多一些。對外經濟貿易大學該專業設在信息學院，因為財經是學校傳統優勢，專業還會偏重經濟、金融等相關學科領域的知識。

錄取分數不低

從2017年數據科學與大數據技術專業的錄取情況看，該專業的錄取分數還是比較高的。以對外經濟貿易大學和重慶理工大學為例，2017年對外經貿大學數據科學與大數據技術專業在京理科一批錄取最高分653分，最低分646分，平均分650分，平均分高出北京一本批次線113分。

重慶理工大學理學院院長李波介紹，學校理學院有金融數學、數學與應用數學、信息與計算科學、應用統計學、應用物理學、新能源科學與工程專業，數據科學與大數據技術是2017年獲批後開設的。盡管該專業屬於本科二批招生，但首批數據科學與大數據技術專業所招73名學生的平均分超一本線20分左右，並且第一志願錄取率達百分之百。

只招理科生注意大類招生

考生報考時要注意，目前獲批開設的院校並非在所有省都有招生計劃，還有的高校是按大類招生。如北京郵電大學該專業2017年本科就是按計算機大類招生。隨著各省高考改革的實施，越來越多的省份加入新高考的序列，未來會有更多的高校施行按大類招生。

值得注意的是，數據科學與大數據技術只招理科生，但女生的比例並不低。據華迎教授介紹：「第一年招生時，我們以為這純工科專業絕大部分都會是男生報考，錄取後發現女生還是很多的，女生比例大概佔了這個專業總人數的一半兒。」重慶理工大學2017年的首批73名學生中，男生45人，女生28人，女生比例占總人數38%。

❼ 大數據畢業以後都是干什麼的

大數據的就業崗位還是很多的，大數據崗位高薪清單對於求職者來說，大數據只是所從事事業的一個方向，而職業崗位則是決定做什麼事?大數據從業者/求職者可以根據自身所學技術及興趣特徵，選擇一個適合自己的大數據相關崗位。下面為大家介紹十種與大數據相關的熱門崗位。
1 ETL研發企業數據種類與來源的不斷增加，對數據進行整合與處理變得越來越困難，企業迫切需要一種有數據整合能力的人才。ETL開發者這是在此需求基礎下而誕生的一個職業崗位。ETL人才在大數據時代炙手可熱的原因之一是：在企業大數據應用的早期階段，Hadoop只是窮人的ETL
2 Hadoop開發隨著數據規模不斷增大，傳統BI的數據處理成本過高企業負擔加重。而Hadoop廉價的數據處理能力被重新挖掘，企業需求持續增長。並成為大數據人才必須掌握的一種技術。
3 可視化工具開發可視化開發就是在可視化工具提供的圖形用戶界面上，通過操作界面元素，有可視化開發工具自動生成相關應用軟體，輕松跨越多個資源和層次連接所有數據。過去，數據可視化屬於商業智能開發者類別，但是隨著Hadoop的崛起，數據可視化已經成了一項獨立的專業技能和崗位。
4 信息架構開發大數據重新激發了主數據管理的熱潮。充分開發利用企業數據並支持決策需要非常專業的技能。信息架構師必須了解如何定義和存檔關鍵元素，確保以最有效的方式進行數據管理和利用。信息架構師的關鍵技能包括主數據管理、業務知識和數據建模等。
5 數據倉庫研究為方便企業決策，出於分析性報告和決策支持的目的而創建的數據倉庫研究崗位是一種所有類型數據的戰略集合。為企業提供業務智能服務，指導業務流程改進和監視時間、成本、質量和控制。
6 OLAP開發OLAP在線聯機分析開發者，負責將數據從關系型或非關系型數據源中抽取出來建立模型，然後創建數據訪問的用戶界面，提供高性能的預定義查詢功能。
7 數據科學研究數據科學家是一個全新的工種，能夠將企業的數據和技術轉化為企業的商業價值。隨著數據學的進展，越來越多的實際工作將會直接針對數據進行，這將使人類認識數據，從而認識自然和行為。8 數據預測分析營銷部門經常使用預測分析預測用戶行為或鎖定目標用戶。預測分析開發者有些場景看上有有些類似數據科學家，即在企業歷史數據的基礎上通過假設來測試閾值並預測未來的表現。
8 數據預測分析營銷部門經常使用預測分析預測用戶行為或鎖定目標用戶。預測分析開發者有些場景看上有有些類似數據科學家，即在企業歷史數據的基礎上通過假設來測試閾值並預測未來的表現。
9 企業數據管理企業要提高數據質量必須考慮進行數據管理，並需要為此設立數據管家職位，這一職位的人員需要能夠利用各種技術工具匯集企業周圍的大量數據，並將數據清洗和規范化，將數據導入數據倉庫中，成為一個可用的版本。
10 數據安全研究數據安全這一職位，主要負責企業內部大型伺服器、存儲、數據安全管理工作，並對網路、信息安全項目進行規劃、設計和實施。

❽ 大數據在哪兒學比較好

大數據這個專業當然是在首都學習最好。因為在那兒你遇到真正的神級大數據講師的概率會大幅提高。

❾ 如何架構大數據系統 hadoop

Hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優勢，事實上已成為當前互聯網企業主流的大數據分析平台。本文主要介紹一種基於Hadoop平台的多維分析和數據挖掘平台架構。作為一家互聯網數據分析公司，我們在海量數據的分析領域那真是被「逼上樑山」。多年來在嚴苛的業務需求和數據壓力下，我們幾乎嘗試了所有可能的大數據分析方法，最終落地於Hadoop平台之上。
1. 大數據分析大分類
Hadoop平台對業務的針對性較強，為了讓你明確它是否符合你的業務，現粗略地從幾個角度將大數據分析的業務需求分類，針對不同的具體需求，應採用不同的數據分析架構。
按照數據分析的實時性，分為實時數據分析和離線數據分析兩種。
實時數據分析一般用於金融、移動和互聯網B2C等產品，往往要求在數秒內返回上億行數據的分析，從而達到不影響用戶體驗的目的。要滿足這樣的需求，可以採用精心設計的傳統關系型資料庫組成並行處理集群，或者採用一些內存計算平台，或者採用HDD的架構，這些無疑都需要比較高的軟硬體成本。目前比較新的海量數據實時分析工具有EMC的Greenplum、SAP的HANA等。
對於大多數反饋時間要求不是那麼嚴苛的應用，比如離線統計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等，應採用離線分析的方式，通過數據採集工具將日誌數據導入專用的分析平台。但面對海量數據，傳統的ETL工具往往徹底失效，主要原因是數據格式轉換的開銷太大，在性能上無法滿足海量數據的採集需求。互聯網企業的海量數據採集工具，有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等，均可以滿足每秒數百MB的日誌數據採集和傳輸需求，並將這些數據上載到Hadoop中央系統上。
按照大數據的數據量，分為內存級別、BI級別、海量級別三種。
這里的內存級別指的是數據量不超過集群的內存最大值。不要小看今天內存的容量，Facebook緩存在內存的Memcached中的數據高達320TB，而目前的PC伺服器，內存也可以超過百GB。因此可以採用一些內存資料庫，將熱點數據常駐內存之中，從而取得非常快速的分析能力，非常適合實時分析業務。圖1是一種實際可行的MongoDB分析架構。

圖1 用於實時分析的MongoDB架構
MongoDB大集群目前存在一些穩定性問題，會發生周期性的寫堵塞和主從同步失效，但仍不失為一種潛力十足的可以用於高速數據分析的NoSQL。
此外，目前大多數服務廠商都已經推出了帶4GB以上SSD的解決方案，利用內存+SSD，也可以輕易達到內存分析的性能。隨著SSD的發展，內存數據分析必然能得到更加廣泛的應用。
BI級別指的是那些對於內存來說太大的數據量，但一般可以將其放入傳統的BI產品和專門設計的BI資料庫之中進行分析。目前主流的BI產品都有支持TB級以上的數據分析方案。種類繁多，就不具體列舉了。
海量級別指的是對於資料庫和BI產品已經完全失效或者成本過高的數據量。海量數據級別的優秀企業級產品也有很多，但基於軟硬體的成本原因，目前大多數互聯網企業採用Hadoop的HDFS分布式文件系統來存儲數據，並使用MapRece進行分析。本文稍後將主要介紹Hadoop上基於MapRece的一個多維數據分析平台。
數據分析的演算法復雜度
根據不同的業務需求，數據分析的演算法也差異巨大，而數據分析的演算法復雜度和架構是緊密關聯的。舉個例子，Redis是一個性能非常高的內存Key-Value NoSQL，它支持List和Set、SortedSet等簡單集合，如果你的數據分析需求簡單地通過排序，鏈表就可以解決，同時總的數據量不大於內存（准確地說是內存加上虛擬內存再除以2），那麼無疑使用Redis會達到非常驚人的分析性能。
還有很多易並行問題（Embarrassingly Parallel），計算可以分解成完全獨立的部分，或者很簡單地就能改造出分布式演算法，比如大規模臉部識別、圖形渲染等，這樣的問題自然是使用並行處理集群比較適合。
而大多數統計分析，機器學習問題可以用MapRece演算法改寫。MapRece目前最擅長的計算領域有流量統計、推薦引擎、趨勢分析、用戶行為分析、數據挖掘分類器、分布式索引等。
2. 面對大數據OLAP大一些問題

OLAP分析需要進行大量的數據分組和表間關聯，而這些顯然不是NoSQL和傳統資料庫的強項，往往必須使用特定的針對BI優化的資料庫。比如絕大多數針對BI優化的資料庫採用了列存儲或混合存儲、壓縮、延遲載入、對存儲數據塊的預統計、分片索引等技術。

Hadoop平台上的OLAP分析，同樣存在這個問題，Facebook針對Hive開發的RCFile數據格式，就是採用了上述的一些優化技術，從而達到了較好的數據分析性能。如圖2所示。
然而，對於Hadoop平台來說，單單通過使用Hive模仿出SQL，對於數據分析來說遠遠不夠，首先Hive雖然將HiveQL翻譯MapRece的時候進行了優化，但依然效率低下。多維分析時依然要做事實表和維度表的關聯，維度一多性能必然大幅下降。其次，RCFile的行列混合存儲模式，事實上限制死了數據格式，也就是說數據格式是針對特定分析預先設計好的，一旦分析的業務模型有所改動，海量數據轉換格式的代價是極其巨大的。最後，HiveQL對OLAP業務分析人員依然是非常不友善的，維度和度量才是直接針對業務人員的分析語言。
而且目前OLAP存在的最大問題是：業務靈活多變，必然導致業務模型隨之經常發生變化，而業務維度和度量一旦發生變化，技術人員需要把整個Cube（多維立方體）重新定義並重新生成，業務人員只能在此Cube上進行多維分析，這樣就限制了業務人員快速改變問題分析的角度，從而使所謂的BI系統成為死板的日常報表系統。
使用Hadoop進行多維分析，首先能解決上述維度難以改變的問題，利用Hadoop中數據非結構化的特徵，採集來的數據本身就是包含大量冗餘信息的。同時也可以將大量冗餘的維度信息整合到事實表中，這樣可以在冗餘維度下靈活地改變問題分析的角度。其次利用Hadoop MapRece強大的並行化處理能力，無論OLAP分析中的維度增加多少，開銷並不顯著增長。換言之，Hadoop可以支持一個巨大無比的Cube，包含了無數你想到或者想不到的維度，而且每次多維分析，都可以支持成千上百個維度，並不會顯著影響分析的性能。

而且目前OLAP存在的最大問題是：業務靈活多變，必然導致業務模型隨之經常發生變化，而業務維度和度量一旦發生變化，技術人員需要把整個Cube（多維立方體）重新定義並重新生成，業務人員只能在此Cube上進行多維分析，這樣就限制了業務人員快速改變問題分析的角度，從而使所謂的BI系統成為死板的日常報表系統。
3. 一種Hadoop多維分析平台的架構
整個架構由四大部分組成：數據採集模塊、數據冗餘模塊、維度定義模塊、並行分析模塊。

數據採集模塊採用了Cloudera的Flume，將海量的小日誌文件進行高速傳輸和合並，並能夠確保數據的傳輸安全性。單個collector宕機之後，數據也不會丟失，並能將agent數據自動轉移到其他的colllecter處理，不會影響整個採集系統的運行。如圖5所示。

數據冗餘模塊不是必須的，但如果日誌數據中沒有足夠的維度信息，或者需要比較頻繁地增加維度，則需要定義數據冗餘模塊。通過冗餘維度定義器定義需要冗餘的維度信息和來源（資料庫、文件、內存等），並指定擴展方式，將信息寫入數據日誌中。在海量數據下，數據冗餘模塊往往成為整個系統的瓶頸，建議使用一些比較快的內存NoSQL來冗餘原始數據，並採用盡可能多的節點進行並行冗餘；或者也完全可以在Hadoop中執行批量Map，進行數據格式的轉化。

維度定義模塊是面向業務用戶的前端模塊，用戶通過可視化的定義器從數據日誌中定義維度和度量，並能自動生成一種多維分析語言，同時可以使用可視化的分析器通過GUI執行剛剛定義好的多維分析命令。
並行分析模塊接受用戶提交的多維分析命令，並將通過核心模塊將該命令解析為Map-Rece，提交給Hadoop集群之後，生成報表供報表中心展示。
核心模塊是將多維分析語言轉化為MapRece的解析器，讀取用戶定義的維度和度量，將用戶的多維分析命令翻譯成MapRece程序。核心模塊的具體邏輯如圖6所示。

圖6中根據JobConf參數進行Map和Rece類的拼裝並不復雜，難點是很多實際問題很難通過一個MapRece Job解決，必須通過多個MapRece Job組成工作流（WorkFlow），這里是最需要根據業務進行定製的部分。圖7是一個簡單的MapRece工作流的例子。

MapRece的輸出一般是統計分析的結果，數據量相較於輸入的海量數據會小很多，這樣就可以導入傳統的數據報表產品中進行展現。

導航:首頁 > 網路數據 > 大數據系統級

大數據系統級

與大數據系統級相關的資料

友情鏈接