大數據三種_大數據包括哪些

㈠大數據時代下的三種存儲架構

大數據時代下的三種存儲架構_數據分析師考試

大數據時代，移動互聯、社交網路、數據分析、雲服務等應用的迅速普及，對數據中心提出革命性的需求，存儲基礎架構已經成為IT核心之一。政府、軍隊軍工、科研院所、航空航天、大型商業連鎖、醫療、金融、新媒體、廣電等各個領域新興應用層出不窮。數據的價值日益凸顯，數據已經成為不可或缺的資產。作為數據載體和驅動力量，存儲系統成為大數據基礎架構中最為關鍵的核心。

傳統的數據中心無論是在性能、效率，還是在投資收益、安全，已經遠遠不能滿足新興應用的需求，數據中心業務急需新型大數據處理中心來支撐。除了傳統的高可靠、高冗餘、綠色節能之外，新型的大數據中心還需具備虛擬化、模塊化、彈性擴展、自動化等一系列特徵，才能滿足具備大數據特徵的應用需求。這些史無前例的需求，讓存儲系統的架構和功能都發生了前所未有的變化。

基於大數據應用需求，「應用定義存儲」概念被提出。存儲系統作為數據中心最核心的數據基礎，不再僅是傳統分散的、單一的底層設備。除了要具備高性能、高安全、高可靠等特徵之外，還要有虛擬化、並行分布、自動分層、彈性擴展、異構資源整合、全局緩存加速等多方面的特點，才能滿足具備大數據特徵的業務應用需求。

尤其在雲安防概念被熱炒的時代，隨著高清技術的普及，720P、1080P隨處可見，智能和高清的雙向需求、動輒500W、800W甚至上千萬更高解析度的攝像機面市，大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求，需要充分考慮功能集成度、數據安全性、數據穩定性，系統可擴展性、性能及成本各方面因素。

目前市場上的存儲架構如下：

（1）基於嵌入式架構的存儲系統

節點NVR架構主要面向小型高清監控系統，高清前端數量一般在幾十路以內。系統建設中沒有大型的存儲監控中心機房，存儲容量相對較小，用戶體驗度、系統功能集成度要求較高。在市場應用層面，超市、店鋪、小型企業、政法行業中基本管理單元等應用較為廣泛。

（2）基於X86架構的存儲系統

平台SAN架構主要面向中大型高清監控系統，前端路數成百上千甚至上萬。一般多採用IPSAN或FCSAN搭建高清視頻存儲系統。作為監控平台的重要組成部分，前端監控數據通過錄像存儲管理模塊存儲到SAN中。

此種架構接入高清前端路數相對節點NVR有了較高提升，具備快捷便利的可擴展性，技術成熟。對於IPSAN而言，雖然在ISCSI環節數據並發讀寫傳輸速率有所消耗，但其憑借擴展性良好、硬體平台通用、海量數據可充分共享等優點，仍然得到很多客戶的青睞。FCSAN在行業用戶、封閉存儲系統中應用較多，比如縣級或地級市高清監控項目，大數據量的並發讀寫對千兆網路交換提出了較大的挑戰，但應用FCSAN構建相對獨立的存儲子系統，可以有效解決上述問題。

面對視頻監控系統大文件、隨機讀寫的特點，平台SAN架構系統不同存儲單元之間的數據共享冗餘方面還有待提高；從高性能伺服器轉發視頻數據到存儲空間的策略，從系統架構而言也增加了隱患故障點、ISCSI帶寬瓶頸導致無法充分利用硬體數據並發性能、接入前端數據較少。上述問題催生了平台NVR架構解決方案。

該方案在系統架構上省去了存儲伺服器，消除了上文提到的性能瓶頸和單點故障隱患。大幅度提高存儲系統的寫入和檢索速度；同時也徹底消除了傳統文件系統由於供電和網路的不穩定帶來的文件系統損壞等問題。

平台NVR中存儲的數據可同時供多個客戶端隨時查詢，點播，當用戶需要查看多個已保存的視頻監控數據時，可通過授權的視頻監控客戶端直接查詢並點播相應位置的視頻監控數據進行歷史圖像的查看。由於數據管理伺服器具有監控系統所有監控點的錄像文件的索引，因此通過平台CMS授權，視頻監控客戶端可以查詢並點播整個監控系統上所有監控點的數據，這個過程對用戶而言也是透明的。

（3）基於雲技術的存儲方案

當前，安防行業可謂「雲」山「物」罩。隨著視頻監控的高清化和網路化，存儲和管理的視頻數據量已有海量之勢，雲存儲技術是突破IP高清監控存儲瓶頸的重要手段。雲存儲作為一種服務，在未來安防監控行業有著客觀的應用前景。

與傳統存儲設備不同，雲存儲不僅是一個硬體，而是一個由網路設備、存儲設備、伺服器、軟體、接入網路、用戶訪問介面以及客戶端程序等多個部分構成的復雜系統。該系統以存儲設備為核心，通過應用層軟體對外提供數據存儲和業務服務。

一般分為存儲層、基礎管理層、應用介面層以及訪問層。存儲層是雲存儲系統的基礎，由存儲設備（滿足FC協議、iSCSI協議、NAS協議等）構成。基礎管理層是雲存儲系統的核心，其擔負著存儲設備間協同工作，數據加密，分發以及容災備份等工作。應用介面層是系統中根據用戶需求來開發的部分，根據不同的業務類型，可以開發出不同的應用服務介面。訪問層指授權用戶通過應用介面來登錄、享受雲服務。其主要優勢在於：硬體冗餘、節能環保、系統升級不會影響存儲服務、海量並行擴容、強大的負載均衡功能、統一管理、統一向外提供服務，管理效率高，雲存儲系統從系統架構、文件結構、高速緩存等方面入手，針對監控應用進行了優化設計。數據傳輸可採用流方式，底層採用突破傳統文件系統限制的流媒體數據結構，大幅提高了系統性能。

高清監控存儲是一種大碼流多並發寫為主的存儲應用，對性能、並發性和穩定性等方面有很高的要求。該存儲解決方案採用獨特的大緩存順序化演算法，把多路隨機並發訪問變為順序訪問，解決了硬碟磁頭因頻繁尋道而導致的性能迅速下降和硬碟壽命縮短的問題。

針對系統中會產生PB級海量監控數據，存儲設備的數量達數十台上百台，因此管理方式的科學高效顯得十分重要。雲存儲可提供基於集群管理技術的多設備集中管理工具，具有設備集中監控、集群管理、系統軟硬體運行狀態的監控、主動報警，圖像化系統檢測等功能。在海量視頻存儲檢索應用中，檢索性能尤為重要。傳統文件系統中，文件檢索採用的是「目錄-》子目錄-》文件-》定位」的檢索步驟，在海量數據的高清視頻監控，目錄和文件數量十分可觀，這種檢索模式的效率就會大打折扣。採用序號文件定位可以有效解決該問題。

雲存儲可以提供非常高的的系統冗餘和安全性。當在線存儲系統出現故障後，熱備機可以立即接替服務，當故障恢復時，服務和數據回遷；若故障機數據需要調用，可以將故障機的磁碟插入到冷備機中，實現所有數據的立即可用。

對於高清監控系統，隨著監控前端的增加和存儲時間的延長，擴展能力十分重要。市場中已有友商可提供單純針對容量的擴展櫃擴展模式和性能容量同步線性擴展的堆疊擴展模式。

雲存儲系統除上述優點之外，在平台對接整合、業務流程梳理、視頻數據智能分析深度挖掘及成本方面都將面臨挑戰。承建大型系統、構建雲存儲的商業模式也亟待創新。受限於寬頻網路、web2.0技術、應用存儲技術、文件系統、P2P、數據壓縮、CDN技術、虛擬化技術等的發展，未來雲存儲還有很長的路要走。

以上是小編為大家分享的關於大數據時代下的三種存儲架構的相關內容，更多信息可以關注環球青藤分享更多干貨

㈡大數據挖掘中的三種角色

大數據挖掘中的三種角色_數據分析師考試

我對數據挖掘和機器學習是新手，從去年7月份在Amazon才開始接觸，而且還是因為工作需要被動接觸的，以前都沒有接觸過，做的是需求預測機器學習相關的。後來，到了淘寶後，自己憑興趣主動地做了幾個月的和用戶地址相關數據挖掘上的工作，有一些淺薄的心得。不管怎麼樣，歡迎指教和討論。

另外，註明一下，這篇文章的標題模仿了一個美劇《權力的游戲：冰與火之歌》。在數據的世界裡，我們看到了很多很牛，很強大也很有趣的案例。但是，數據就像一個王座一樣，像征著一種權力和征服，但登上去的路途一樣令人膽顫。

數據挖掘中的三種角色

在Amazon里從事機器學習的工作時，我注意到了Amazon玩數據的三種角色。

Data Analyzer：數據分析員。這類人的人主要是分析數據的，從數據中找到一些規則，並且為了數據模型的找不同場景的Training Data。另外，這些人也是把一些臟數據洗干凈的的人。

Research Scientist：研究科學家。這種角色主要是根據不同的需求來建立數據模型的。他們把自己戲稱為不近人間煙火的奇異性物種，就像《生活大爆炸》里的那個Sheldon一樣。這些人基本上玩的是數據上的科學

Software Developer：軟體開發工程師。主要是把Scientist建立的數據模型給實現出來，交給Data Analyzer去玩。這些人通常更懂的各種機器學習的演算法。

我相信其它公司的做數據挖掘或是機器學習的也就這三種工作，或者說這三種人，對於我來說，

最有技術含量的是Scientist，因為數據建模和抽取最有意義的向量，以及選取不同的方法都是這類人來決定的。這類人，我覺得在國內是找不到的。

最苦逼，也最累，但也最重要的是Data Analyzer，他們的活也是這三個角色中最最最重要的（注意：我用了三個最）。因為，無論你的模型你的演算法再怎麼牛，在一堆爛數據上也只能幹出一堆垃圾的活來。正所謂：Garbage In, Garbage Out！但是這個活是最臟最累的活，也是讓人最容易退縮的活。

最沒技術含量的是Software Developer。現在國內很多玩數據的都以為演算法最重要，並且，很多技術人員都在研究機器學習的演算法。錯了，最重要的是上面兩個人，一個是苦逼地洗數據的Data Analyzer，另一個是真正懂得數據建模的Scientist！而像什麼K-Means，K Nearest Neighbor，或是別的什麼貝葉斯、回歸、決策樹、隨機森林等這些玩法，都很成熟了，而且又不是人工智慧，說白了，這些演算法在機器學習和數據挖掘中，似乎就像Quick Sort之類的演算法在軟體設計中基本沒什麼技術含量。當然，我不是說演算法不重要，我只想說這些演算法在整個數據處理中是最不重要的。

數據的質量

目前所流行的Buzz Word——大數據是相當誤導人的。在我眼中，數據不分大小，只分好壞。

在處理數據的過程中，我第一個感受最大的就是數據質量。下面我分幾個案例來說明：

案例一：數據的標准

在Amazon里，所有的商品都有一個唯一的ID，叫ASIN——Amazon Single Identify Number，這個ID是用來標識商品的唯一性的（來自於條形碼）。也就是說，無論是你把商品描述成什麼樣，只要ASIN一樣，這就是完完全全一模一樣的商品。

這樣，就不像淘寶一樣，當你搜索一個iPhone，你會出現一堆各種各樣的iPhone，有的叫「超值iPhone」，有的叫「蘋果iPhone」，有的叫「智能手機iPhone」，有的叫「iPhone白色/黑色」……，這些同一個商品不同的描述是商家為了吸引用戶。但是帶來的問題有兩點：

1）用戶體驗不好。以商品為中心的業務模型，對於消費者來說，體驗明顯好於以商家為中心的業務模型。

2）只要你不能正確讀懂（識別）數據，你後面的什麼演算法，什麼模型統統沒用。

所以，只要你玩數據，你就會發現，如果數據的標准沒有建立起來，干什麼都沒用。數據標準是數據質量的第一道關卡，沒這個玩意，你就什麼也別玩了。所謂數據的標准，為數據做唯一標識只是其中最最基礎的一步，數據的標准還單單只是這個，更重要的是把數據的標准抽象成數學向量，沒有數學向量，後面也無法挖掘。

所以，你會看到，洗數據的大量的工作就是在把雜亂無章的數據歸並聚合，這就是在建立數據標准。這裡面絕對少不了人肉的工作。無非就是：

聰明的人在數據產生之前就定義好標准，並在數據產生之時就在干數據清洗的工作。

一般的人是在數據產生並大量堆積之後，才來干這個事。

另外，說一下Amazon的ASIN，這個事從十多年前就開始了，我在Amazon的內網里看到的資料並沒有說為什麼搞了個這樣一個ID，我倒覺得這並不是因為Amazon因為玩數據發現必需建議個商品ID，也許因為Amazon的業務模型就是設計成以「商品為中心」的。今天，這個ASIN依然有很多很多的問題，ASIN一樣不能完全保證商品就是一樣的，ASIN不一樣也不代表商品不一樣，不過90%以上的商品是保證的。Amazon有專門的團隊Category Team，裡面有很多業務人員天天都在拚命地在對ASIN的數據進行更正。

案例二：數據的准確

用戶地址是我從事過數據分析的另一個事情。我還記得當時看到那數以億計的用戶地址的數據的那種興奮。但是隨後我就興奮不起來了。因為地址是用戶自己填寫的，這裡面有很多的坑，都不是很容易做的。

第一個是假/錯地址，因為有的商家作弊或是用戶做測試。所以地址是錯的，

比如，直接就輸入「該地址不存在」，「13243234asdfasdi」之類的。這類的地址是可以被我的程序識別出來的。

還有很難被我的程序所識別出來的。比如：「宇宙路地球小區」之類的。但這類地址可以被人識別出來。

還有連人都識別不出來的，比如：「北京市東四環中路23號南航大廈5樓540室」，這個地址根本不存在。

第二個是真地址，但是因為用戶寫的不標准，所以很難處理，比如：

縮寫：「建國門外大街」和「建外大街」，「中國工商銀行」和「工行」……

錯別字：「潮陽門」，「通慧河」……

顛倒：「東四環中路朝陽公園」和「朝陽公園（靠東四環）」……

別名：有的人寫的是開發商的小區名「東恆國際」，有的則是寫行政的地名「八里庄東里」……

這樣的例子多得不能再多了。可見數據如果不準確，會增加你處理的難度。有個比喻非常好，玩數據的就像是在挖金礦一樣，如果含金量高，那麼，挖掘的難度就小，也就容易出效果，如果含金量低，那麼挖掘的難度就大，效果就差。

上面，我給了兩個案例，旨在說明——

1）數據沒有大小之分，只有含金量大的數據和垃圾量大的數據之分。

2）數據清洗是一件多麼重要的工作，這也是一件人肉工作量很大的工作。

所以，這個工作最好是在數據產生的時候就一點一滴的完成。

有一個觀點：如果數據准確度在60%的時候，你干出來的事，一定會被用戶罵！如果數據准確度在80%左右，那麼用戶會說，還不錯！只有數據准確度到了90%的時候，用戶才會覺得真牛B。但是從數據准確度從80%到90%要付出的成本要比60%到80%的付出大得多得多。大多數據的數據挖掘團隊都會止步於70%這個地方。因為，再往後，這就是一件相當累的活。

數據的業務場景

我不知道有多少數據挖掘團隊真正意識到了業務場景和數據挖掘的重要關系？我們需要知道，根本不可能做出能夠滿足所有業務的數據挖掘和分析模型。

推薦音樂視頻，和電子商務中的推薦商品的場景完全不一樣。電商中，只要你買了一個東西沒有退貨，那麼，有很大的概率我可以相信你是喜歡這個東西的，然後，對於音樂和視頻，你完全不能通過用戶聽了這首歌或是看了這個視頻就武斷地覺得用戶是喜歡這首歌和這個視頻的，所以，我們可以看到，推薦演算法在不同的業務場景下的實現難度也完全不一樣。

說到推薦演算法，你是不是和我一樣，有時候會對推薦有一種感覺——推薦就是一種按不同維度的排序的演算法。我個人以為，就提一下推薦這個東西在某些業務場景下是比較Tricky的，比如，推薦有兩種（不是按用戶關系和按物品關系這兩種），

一種是共性化推薦，結果就是推薦了流行的東西，這也許是好的，但這也許會是用戶已知的東西，比如，到了北京，我想找個飯館，你總是給我推薦烤鴨，我想去個地方，你總是給我推薦天安門故宮天壇（因為大多數人來北京就是吃烤鴨，就是去天安門的），這些我不都知道了嘛，還要你來推薦？另外，共性化的東西通常是可以被水軍刷的。

另一種是一種是個性化推薦，這個需要分析用戶的個體喜好，好的就是總是給我我喜歡的，不好的就是也許我的口味會隨我的年齡和環境所改變，而且，總是推薦符合用戶口味的，不能幫用戶發掘新鮮點。比如，我喜歡吃辣的，你總是給我推薦川菜和湘菜，時間長了我也會覺得煩的。

推薦有時並不是民主投票，而是專業用戶或資深玩家的建議；推薦有時並不是推薦流行的，而是推薦新鮮而我不知道的。你可以看到，不同的業務場景，不同的產品形態下的玩法可能完全不一樣，

另外，就算是對於同一個電子商務來說，書、手機和服裝的業務形態完全不一樣。我之前在Amazon做Demand Forecasting（用戶需求預測）——通過歷史數據來預測用戶未來的需求。

對於書、手機、家電這些東西，在Amazon里叫Hard Line的產品，你可以認為是「標品」（但也不一定），預測是比較準的，甚至可以預測到相關的產品屬性的需求。

但是地於服裝這樣的叫Soft Line的產品，Amazon幹了十多年都沒有辦法預測得很好，因為這類東西受到的干擾因素太多了，比如：用戶的對顏色款式的喜好，穿上去合不合身，愛人朋友喜不喜歡……這類的東西太容易變了，買得人多了反而會賣不好，所以根本沒法預測好，更別Stock/Vender Manager提出來的「預測某品牌的某種顏色的衣服或鞋子」。

對於需求的預測，我發現，長期在這個行業中打拚的人的預測是最準的，什麼機器學習都是浮雲。機器學習只有在你要面對的是成千上萬種不同商品和品類的時候才會有意義。

數據挖掘不是人工智慧，而且差得還太遠。不要覺得數據挖掘什麼事都能幹，找到一個合適的業務場景和產品形態，比什麼都重要。

數據的分析結果

我看到很多的玩大數據的，基本上乾的是數據統計的事，從多個不同的維度來統計數據的表現。最簡單最常見的統計就是像網站統計這樣的事。比如：PV是多少，UV是多少，來路是哪裡，瀏覽器、操作系統、地理、搜索引擎的分布，等等，等等。

嘮叨一句，千萬不要以為，你一天有十幾個T的日誌就是數據了，也不要以為你會用Hadoop/MapRece分析一下日誌，這就是數據挖掘了，說得難聽一點，你在做的只不過是一個統計的工作。那幾個T的Raw Data，基本上來說沒什麼意義，只能叫日誌，連數據都算不上，只有你統計出來的這些數據才是有點意義的，才能叫數據。

當一個用戶在面對著自己網店的數據的時候，比如：每千人有5個人下單，有65%的訪客是男的，18-24歲的人群有30%，等等。甚至你給出了，你打敗了40%同類型商家的這樣的數據。作為一個商戶，面對這些數據時，大多數人的表現是完全不知道自己能幹什麼？是把網站改得更男性一點，還是讓年輕人更喜歡一點？完全不知道所措。

只要你去看一看，你會發現，好些好些的數據分析出來的結果，看上去似乎不錯，但是其實完全不知道下一步該干什麼？

所以，我覺得，數據分析的結果並不僅僅只是把數據呈現出來，而更應該關注的是通過這些數據後面可以干什麼？如果看了數據分析的結果後並不知道可以干什麼，那麼這個數據分析是失敗的。

總結

綜上所述，下面是我覺得數據挖掘或機器學習最重要的東西：

1）數據的質量。分為數據的標准和數據的准確。數據中的雜音要盡量地排除掉。為了數據的質量，大量人肉的工作少不了。

2）數據的業務場景。我們不可能做所有場景下的來，所以，業務場景和產品形態很重要，我個人感覺業務場景越窄越好。

3）數據的分析結果，要讓人能看得懂，知道接下來要干什麼，而不是為了數據而數據。

搞數據挖掘的人很多，但成功的案例卻不多（相比起大量的嘗試來說），就目前而言，我似乎覺得目前的數據挖掘的技術是一種過渡技術，還在摸索階段。另外，好些數據挖掘的團隊搞得業務不業務，技術不技術的，為其中的技術人員感到惋惜……

不好意思，我只給出了問題，沒有建議，這也說明數據分析中有很多的機會……

最後，還要提的一個是「數據中的個人隱私問題」，這似乎就像那些有悖倫理的黑魔法一樣，你要成功就得把自己變得黑暗。是的，數據就像一個王座一樣，像征著一種權力和征服，但登上去的路途一樣令人膽顫。

以上是小編為大家分享的關於大數據挖掘中的三種角色的相關內容，更多信息可以關注環球青藤分享更多干貨

㈢大數據運算的三種引擎是什麼有什麼區別

現在流行的開源引擎可不止三個，先羅列5個給你：
1)Hive，披著SQL外衣的Map-Rece。Hive是為方便用戶使用Map-Rece而在外面封裝了一層SQL，由於Hive採用了SQL，它的問題域比Map-Rece更窄，因為很多問題，SQL表達不出來，比如一些數據挖掘演算法，推薦演算法、圖像識別演算法等，這些仍只能通過編寫Map-Rece完成。
2) Impala：Google Dremel的開源實現（Apache Drill類似），因為互動式實時計算需求，Cloudera推出了Impala系統，該系統適用於互動式實時處理場景，要求最後產生的數據量一定要少。
3)Shark/Spark：為了提高Map-Rece的計算效率，Berkeley的AMPLab實驗室開發了Spark，Spark可看做基於內存的Map-Rece實現，此外，伯克利還在Spark基礎上封裝了一層SQL，產生了一個新的類似Hive的系統Shark。
4) Stinger Initiative（Tez optimized Hive）：Hortonworks開源了一個DAG計算框架Tez，Tez可以理解為Google Pregel的開源實現，該框架可以像Map-Rece一樣，可以用來設計DAG應用程序，但需要注意的是，Tez只能運行在YARN上。Tez的一個重要應用是優化Hive和PIG這種典型的DAG應用場景，它通過減少數據讀寫IO，優化DAG流程使得Hive速度提供了很多倍。
5)Presto：FaceBook於2013年11月份開源了Presto，一個分布式SQL查詢引擎，它被設計為用來專門進行高速、實時的數據分析。它支持標準的ANSI SQL，包括復雜查詢、聚合（aggregation）、連接（join）和窗口函數（window functions)。Presto設計了一個簡單的數據存儲的抽象層，來滿足在不同數據存儲系統（包括HBase、HDFS、Scribe等）之上都可以使用SQL進行查詢。

㈣大數據發展必備三個條件

大數據發展必備三個條件
大數據概念的橫空出世，有賴於短短幾年出現的海量數據。據統計，互聯網上的數據每兩年翻一番，而目前世界上90%以上的數據都是最近幾年才產生的。當然，海量數據僅僅是「大數據」概念的一部分，只有具備4個「V」的特徵，大數據的定義才算完整，而價值恰恰是決定大數據未來走向的關鍵。
大數據發展必備三個條件
大數據的發展需要三個必要條件：數據源、數據交易、數據產生價值的過程。近年來，社交網路的興起、物聯網的發展和移動互聯網的普及，誕生了大量有價值的數據源，奠定了大數據發展的基礎。大數據時代到來的重要標志，則是大批專業級「數據買賣商」的出現，以及圍繞數據交易形成的，貫穿於收集、整理、分析、應用整個流程的產業鏈條。大數據發展的核心，則是使用戶從海量的非結構化數據和半結構化數據中獲得了新的價值，數據價值是帶動數據交易的原動力。
IBM、甲骨文、SAP近年紛紛斥巨資收購數據管理和分析公司，在這些互聯網巨頭的帶動下，數據分析技術日漸成熟。2013年6月，愛德華·斯諾登將「棱鏡計劃」公之於眾，「棱鏡門」事件一方面說明大數據技術已經成熟;另一方面也佐證了現在阻礙大數據發展的不是技術，而是數據交易和數據價值。
大數據技術的發展促進了雲計算的落地，雲計算的部署完成又反過來加大了市場對數據創造價值的期待。大數據概念提出之後，市場終於看到了雲計算的獲利方向：各地的一級系統集成商與當地政府合作，建雲數據中心;各大行業巨頭在搭建各自行業的雲平台;IT巨頭想盡辦法申請中國的公有雲牌照。大數據促成了雲計算從概念到落地。藉助於智慧城市概念的普及，雲計算基礎設施已基本准備就緒，一方面完成了大數據應用的硬體基礎;另一方面迫於回收雲計算投資的壓力，市場急需應用部署，大數據恰如雪中送炭，被市場寄予厚望。
現在，問題的核心指向了「數據如何創造價值?」
整合與開放是基石
大數據服務創業公司Connotate對800多名商業和IT主管進行了調查。結果顯示，60%受調查者稱：「目前就說這些大數據投資項目肯定能夠帶來良好回報尚為時過早。」之所以如此，是由於當前大數據缺乏必需的開放性：數據掌握在不同的部門和企業手中，而這些部門和企業並不願意分享數據。大數據是通過研究數據的相關性來發現客觀規律，這依賴於數據的真實性和廣泛性，數據如何做到共享和開放，這是當前大數據發展的軟肋和需要解決的大問題。
2012年美國大選，奧巴馬因數據整合而受益。在奧巴馬的競選團隊中有一個神秘的數據挖掘團隊，他們通過對海量數據進行挖掘幫助奧巴馬籌集到10億美元資金;他們通過數據挖掘使競選廣告投放效率提升了14%;他們通過製作「搖擺州」選民的詳細模型，每晚實施6.6萬次模擬選舉，推算奧巴馬在「搖擺州」的勝率，並以此來指導資源分配。奧巴馬競選團隊相比羅姆尼競選團隊最有優勢的地方：對大數據的整合。奧巴馬的數據挖掘團隊也意識到這個全世界共同的問題：數據分散在過多的資料庫中。因此，在前18個月，奧巴馬競選團隊就創建了一個單一的龐大數據系統，可以將來自民意調查者、捐資者、現場工作人員、消費者資料庫、社交媒體，以及「搖擺州」主要的民主黨投票人的信息整合在一起，不僅能告訴競選團隊如何發現選民並獲得他們的注意，還幫助數據處理團隊預測哪些類型的人有可能被某種特定的事情所說服。正如競選總指揮吉姆·梅西納所說，在整個競選活中，沒有數據做支撐的假設很少存在。
2012年3月，美國奧巴馬政府宣布投資2億美元啟動「大數據研究和發展計劃」，將「大數據研究」上升為國家意志。一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分。國內智慧城市建設目標之一就是實現數據的集中共享。
合作共贏的商業模式
隨著雲計算、大數據技術和相關商業環境的不斷成熟，越來越多的「軟體開發者」正在利用跨行業的大數據平台，打造創新價值的大數據應用，而且這一門檻正在不斷降低。因為首先，數據擁有者能夠以微乎其微的成本獲取額外的收入，提高利潤水平;其次，大數據設備廠商需要應用來吸引消費者購買設備，發展合作共贏的夥伴關系勢必比單純銷售設備要有利可圖，一些具有遠見的廠商已經開始通過提供資金、技術支持、入股等方式來扶持這些「軟體開發者」;第三，行業細分市場的數據分析應用需求在不斷加大，對於整個大數據產業鏈來說，創新型的行業數據應用開發者必將是未來整個大數據產業鏈中最為活躍的部分。
未來，有三種企業將在」大數據產業鏈「中處於重要地位：掌握海量有效數據的企業，有著強大數據分析能力的企業，以及創新的「軟體開發者」。社交網路、移動互聯網、信息化企業、電信運營商都是海量數據的製造者，Facebook公司手中掌握著8.5億用戶，淘寶注冊用戶超過3.7億，騰訊的微信用戶突破3億，這些龐大用戶群所提供的數據，正在等待時機釋放出巨大商業能量。可以預測，在不久的將來，Facebook、騰訊、電信運營商等海量數據持有者或者自我延伸成為數據分析提供商，或者與IBM、ZTE等企業密切對接成為上下游合作企業，大數據產業鏈將在某個爆發時點到來之際，以令人驚訝的速度成長壯大。
警惕大數據的危害
大數據時代，傳統的隨機抽樣被「所有數據的匯攏」所取代，人們的思維決斷模式，已可直接根據「是什麼」來下結論，由於這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾，因此將更精確、更有預見性。不過，由於大數據過於依靠數據的匯集，一旦數據本身有問題，就很可能出現「災難性大數據」，即因為數據本身的問題，而導致錯誤的預測和決策。
大數據的理論是「在稻草堆里找一根針」，而如果「所有稻草看上去都挺像那根針」呢?過多但無法辨析真偽和價值的信息和過少的信息一樣，對於需要作出瞬間判斷、一旦判斷出錯就很可能造成嚴重後果的情況而言，同樣是一種危害。「大數據」理論是建立在「海量數據都是事實」的基礎上，而如果數據提供者造假呢?這在大數據時代變得更有害，因為人們無法控制數據提供者和搜集者本人的偏見。擁有最完善資料庫、最先接受「大數據」理念的華爾街投行和歐美大評級機構，卻每每在重大問題上判斷出錯，這本身就揭示了「大數據」的局限性。
不僅如此，大數據時代造就了一個資料庫無所不在的世界，數據監管部門面臨前所未有的壓力和責任：如何避免數據泄露對國家利益、公眾利益、個人隱私造成傷害?如何避免信息不對等，對困難群體的利益構成傷害?在有效控制風險之前，也許還是讓「大數據」繼續待在籠子里更好一些。
大數據的經濟價值已經被人們認可，大數據的技術也已經逐漸成熟，一旦完成數據的整合和監管，大數據爆發的時代即將到來。我們現在要做的，就是選好自己的方向，為迎接大數據的到來，提前做好准備。

㈤列舉三種大數據的解決方案

三種大數據，我覺得咱們的三種大數據，其中之一應該是人口，然後是經濟。然後是，嗯發展。

㈥企業必須掌握的三種大數據

企業必須掌握的三種大數據

當前國內核心三大消費群體70後、80後、90後，三者是受不同時代影響成長起來的，而三者之間消費理念、經濟能力，以及消費需求存在十分鮮明的差異化。但隨著時間的推移，三大主流人群未來所呈現的消費潛力必然呈現遞增趨勢。70後逐漸老化;80後正步入結婚生子的而立之年;90後正成為社會主流的新青年，那麼廣大用戶年齡層次的差異，必然導致產品需求必然呈現層次化改變。
怎麼找准用戶的核心需求?這必然要源於用戶的信息接收方式、消費行為習慣、選擇購買方式等綜合因素，才能保證做出最精準的決策。這些精準聚焦的用戶行為，必然是需要通過觀察廣大用戶全局數據，才能更有效的抓取某一類用戶特徵。沒有一個品牌能夠贏得所有用戶，但你所能滿足的受眾必然是源於廣大的用戶。所有用戶代表是市場需求的整體，而某一類目標用戶代表的是市場需求的部分，整體是由部分組成。對於企業來說，核心是要迎合某一類用戶，但怎麼決策卻需要根據市場需求的全局，以應對某一類用戶需求的變局。根據用戶大數據，以宏觀視角，做圍觀決定，才能更好的融入用戶群體。
競爭對手數據：以敵動決定我動
競爭是市場發展的自然規律，也是市場走向成熟的驅動力。沒有競爭的行業最終都將因為缺乏創新力而滅亡，或是被替代。每一個行業有大數據，每個企業也是如此，它所做出的任何決定，比如新品上市、營銷活動、廣告轟炸等，都會被大數據所紀錄。一個行業的繁榮與否，與行業內競爭有著直接的關聯。而競爭不僅能夠推動產品質量、技術等綜合提升，還能加速服務的升級，同時帶來關聯的整套體系進化。因而，企業不能忽視競爭，更不能任何競爭對手的新品，或是每一個新進入者，除非你已經占據明顯的壟斷優勢。
未來的競爭，不僅僅是線下傳統渠道，線上互聯網也將角逐的新陣地。那麼，怎麼制定有效的品牌營銷策略，怎麼制定合理的市場推廣策略，怎麼布局差異化的渠道網路?所有的核心優勢的建立，必須清楚地認識競爭對手所處在的位置和方向，否則如果實力不足以撼動對手，那就可能被對手絞殺。因此，企業必須時刻警惕競爭對手的動態，保證時刻掌握敵情變化，以敏銳的做出有力回擊。這就可以通過大數據的定期監測，保證獲取最新的競爭信息，但這一信息必然不是某個競爭對手，而必須是對自身能夠造成威脅的所有競爭者。掌握這些最有力的實時數據，企業就能夠游刃有餘的根據敵動決定我動。
無線端大數據：以即時謀劃大勢
未來，每一個企業都不可能脫離互聯網與信息化，而更不能脫離即將主宰便捷化信息獲取與消費購買的無線端。不論是目前國內5億智能手機用戶這一龐大的規模，且還在呈上升趨勢，並即將轉化為全民普及的趨勢。還是2015年雙十一的銷售數據無線端格外搶眼，占據60%的購買量。這兩方面都預示著未來的消費生活將是無線端的天下，更是隨時隨地便捷體驗的天下。無線端，這不僅是一個超強的傳播載體，更是一個超強的購買平台，你所能想到的都能通過IT技術實現。在這種大趨勢下，每一個企業都應該謹慎客觀的去考慮無線端的使用。
與此同時，手機已經成功主宰了大眾的日常生活，60%的大眾已經淪為手機重度依賴症患者。而互聯網將所有用戶不斷割裂，但無線端卻能將這所有被各類的若干群體的特徵整體的呈現出來，這就是它的獨特而又強大之處。無線端能夠反應所有商品的銷售數據，各類平台的時效數據，甚至各種用戶的地域、年齡、喜好等綜合與單項數據。這一切都能會呈現在一個數據後台，最終變成合理分析的依據。因而，無線端，不僅是企業的傳播平台，也是企業的銷售平台，更是獲取即時數據的保障。未來是快節奏更新的社會，企業只有掌握無線端大數據，才能掌控即時的局勢，從而謀劃未來的發展大勢。
大數據不僅是一場技術革命，一場經濟變革，也是一場國家戰略的變革。它所帶來的是產業革命，更關乎每一個企業的生死，你需要做的就是盡可能的掌握它，並正確利用它，而不是排斥。大數據是發展的必然，但絕對不僅限於當前的表面應用，未來將發揮更深層次的作用。

㈦大數據包括哪些

大數據技術龐大復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL數據內庫、容數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。
大數據主要技術組件：Hadoop、HBase、kafka、Hive、MongoDB、Redis、Spark 、Storm、Flink等。
大數據技術包括數據採集，數據管理，數據分析，數據可視化，數據安全等內容。數據的採集包括感測器採集，系統日誌採集以及網路爬蟲等。數據管理包括傳統的資料庫技術，nosql技術，以及對於針對大規模數據的大數據平台，例如hadoop，spark，storm等。數據分析的核心是機器學習，當然也包括深度學習和強化學習，以及自然語言處理，圖與網路分析等。

㈧大數據的分類方法有幾種,其中數據處理時常用哪一種

大數據的類型大致可分為三類：
傳統企業數據(Traditional enterprise data)：包括 CRM
systems的消費者數據，傳統版的ERP數據，庫存權數據以及賬目數據等。
機器和感測器數據(Machine-generated /sensor data)：包括呼叫記錄(Call Detail
Records)，智能儀表，工業設備感測器，設備日誌(通常是Digital exhaust)，交易數據等。
社交數據(Social data)：包括用戶行為記錄，反饋數據等。如Twitter，Facebook這樣的社交媒體平台。

㈨在大數據時代，有哪三種大數據公司活躍在大數據產業鏈上呢

基於數據本身的公司：自身擁有大量的數據資源，比如政府機構；
基於技術的公司：比如勤智數碼大數據處理平台；
基於思維的公司：可以依託大數據分析為企業提供戰略方向，比如魔鏡的大數據服務和勤智數碼大數據咨詢服務。按照以上的三種角色，對大數據的商業模式做了梳理和細分。
「數據擁有者」的商業模式數據擁有者，這樣的公司有三類：
1.大數據是業務核心，對大數據的重復利用是其發展的原動力，例如Google、Amazon、Inrix等；這種公司具有很強大的大數據技術能力，多數時候大數據技術本身主要用於自身的運作，具有三種產業鏈角色：數據+技術+服務；
2.大數據是作為提高生產效率、增加業務收入或者創造新的收入的使能器，非廠商的主流業務；例如運營商、銀行等，運營商的主要業務是通過通信設備提供的各種網路語音和數據業務，目前運營商本身並不通過數據的重復利用為主要手段來盈利；
3.數據中間商，本身不具有創造數據的能力，從各種地方搜集數據進行整合，然後再提取有用的信息進行利用；它們的商業模式有：
2B：面向企業或者公共政府部門，提供數據分析結果的服務；例如Inrix在交通信息領域，面向GPS生產商、和交通規劃部門、 FedEX和UPS等物流公司等，出售完整的當前甚至未來的交通狀況的模式圖或者資料庫；2C：面向個人，提供基於數據分析結果的服務。例如：Inrix提供一個免費的智能手機應用程序，一方面它可以為用戶提供免費的交通信息，另一方面它自己就得到了同步的數據。
2D：租售數據/信息模
式（數據資產分享和交易平台），新的商業模式，把數據/信息作為資產直接進行銷售；例如：Twitter把它的數據都通過兩個獨立的公司授權給別人使用；VISA和MasterCard收集和分析了來自210個國家的15億信用卡用戶的650億條交易記錄，用來預測商業發展和客戶的消費趨勢。然後，它把這些分析結果賣給其他公司；「技術提供者」的商業模式技術提供者的2B商業模式是目前的主流，有4種類型：提供單點技術，pure-play為主，例如：Teradata為沃爾瑪和Pop-Tarts這兩個零售商提供大數據分析技術，來獲得營銷點子；提供整體解決方案，IT廠商為主，例如：IBM提供軟硬一體的大數據解決方案；華為基於IT基礎設施領域在存儲和計算的優勢，提供整體大數據解決方案；大數據空間出租模式：大數據計算基礎設施上（與雲結合），通過出租一個虛擬空間，從簡單的文件存儲，逐步擴展到數據聚合平台，例如騰訊開放雲戰略為大數據創業者提供了廉價的數據基礎設施，使中小企業也有機會在大數據領域創新業務。Bigdata as a service，新的商業模式，提供E2E在線大數據技術或者解決方案。例如 RJMetrics，為電商提供快捷的商業智能在線服務，軟體定價為 500 美元每月，客戶只需在軟體端輸入特定數據，RJMetrics
便會將這些信息備份到安全的伺服器上，並承諾在7日內優化數據用以分析，之後以清晰簡潔的界面將數據分析結果反饋給客戶。再例如，GoodData面向商業用戶和IT企業高管，提供數據存儲、性能報告、數據分析等工具，將所有商業智能分析所需的數據和任務都搬到了雲上；技術提供者的2C商業模式，目前較少，與cloud結合後有很大的空間，未來是趨勢。例如：面向個人的家庭帳單、家庭耗能節能等或者面向個人數據的大數據解決方案。
「服務提供者」的商業模式服務提供者有兩種，一種是應用服務提供者，另一種是咨詢服務提供者。應用服務提供者是基於大數據技術，對外提供服務：

2B：面向企業或者公共政府部門，提供數據分析結果的服務；例如前面提過的Inrix;
2C：面向個人，提供基於數據分析的服務；例如： Flight_caster 和FlyOnTime.us基於分析過去十年裡每個航班的情況，然後將其與過去和現實的天氣情況進行匹配，預測航班是否會晚點；咨詢服務提供者，提供技術服務支持、技術（方法、商業等）咨詢，或者為企業提供類似數據科學家的咨詢服務；2B 商業模式：定位在某一具體行業，通過大量數據支持，對數據進行挖掘分析後預測相關主體的行為，以開展業務；利用數據挖掘技術幫助客戶開拓精準營銷或者新業務，有時企業收入來自於客戶增值部分的分成。例如德國咨詢公司GFK幫助Telefonica 面向零售商、政府部門、公共機構提供基於地點的人員流動（Footfall）數據：以時間為維度（小時/天/月/年），在特定區域的人員人口統計數據（性別、年齡）和行動等數據；這類企業成長非常快，一般擅長數據挖掘分析技術，幫助一些數據大戶如銀行、運營商等開展新的業務。

導航:首頁 > 網路數據 > 大數據三種

大數據三種

與大數據三種相關的資料

友情鏈接