1. 如何搭建數據湖架構
java">EdoInteractive在幾年前遇到一個大問題:公司使用交易數據來幫助零售商和餐館進行個性化促銷,但其數據倉庫沒有足夠時間去處理所有的信用卡和借記卡交易數據
「我們要花費27小時來處理每日的數據量,」Edo主管基礎設施和信息系統的高級副總裁TimGarnto說道:「所以在2013年,我們放棄了現有的基於PostgreSQL的關系型資料庫系統,使用了Hadoop集群作為公司的數據湖架構。」
Garnto的團隊一天中需要收集5000多萬條美國零售交易數據,並分發到20個節點的集群中,這些節點運行在Cloudera的Hadoop分布式機架上,使用Pentaho的數據集成工具。從銀行和信用卡公司收集到的數據,會被傳入設計好的預測模型中,以確定個體持卡人所需的優惠券。Edo的業務夥伴每周通過電子郵件發出優惠券,這些優惠券會在產生對應消費時生效。
每日的數據構建時間縮減到大約四個小時,Garnto表示,根據正在運行模型的復雜性,Edo的數據分析師能「在幾分鍾或幾小時內完成他們的工作。而以前,他們可能累的要死。
但數據湖上並不總是陽光燦爛,一帆風順的。起初,Edo只有一個員工具有HadoopMapRece編程框架的經驗。公司聯合Chicago總部和Nashville分部,對其他員工進行Hadoop技術內部培訓,但後來這使得他們不得放棄了熟悉的數據查詢方式。「我們花了很多時間更新這一過程。」Garnto說。
創建一個保證原始數據一致性和生成標准化分析數據集的兩步程序也需要花時間去解決。目前擁有包含450億條記錄(總共255TB的數據)的集群,已成為Edo業務操作的核心,對於這個集群,Garnto需要小心管理,謹慎添加新的Hadoop生態技術。否則,對公司某個部分的調整可能會影響整個系統對其他部分的工作處理。
數據湖使實時分析成為了可能
Webtrends公司是另一家數據湖的使用者,該公司收集並處理網站、手機、物聯網上的活動數據。這家位於波特蘭的公司於2014年7月部署了基於Hortonworks的Hadoop集群,目前正在試用階段,計劃在2015年初完全實現。它最初只支持了一個叫Explore的產品,讓企業營銷人員做客戶數據的專項分析。Webtrends產品架構主管PeterCrossley表示,每個季度大約有500TB的數據添加到60個節點的集群中,現在總共有1.28PB。
隨著時間的推移,Webtrends計劃使用Hadoop平台代替自有的數據網路附加存儲平面文件系統。Crossley表示,使用ApacheKafka消息隊列和自動化腳本處理技術,互聯網點擊流數據可以湧入集群和並在20至40毫秒內做好分析准備工作。因此,報表和分析過程幾乎可以在瞬間開始,這比老系統快得多。Hadoop集群還支持進階分析,且能降低25%到50%的硬體成本。
Crossley表示,採用數據湖概念需要公司內部在管理和使用Webtrends為客戶收集的信息時做到「思路上的轉變」。之前,該公司主要使用數據存儲構建通用報表。但是,一個數據湖與其說是一個真理,不如說是真理的來源,在其之上,您可以構建多個數據集以供不同的分析用途。
Webtrends也不得不認真考慮其數據湖的架構和數據治理過程,以防止Hadoop集群變成「數據沼澤」,正如Crossley所說。剛剛進入系統的原始數據結構十分鬆散(+微信關注網路世界),但是應該有非常嚴格的規則來規定其應該是什麼樣子。此外,他的團隊已經將集群分成三個不同的層次:一個用於原始數據,第二個用於日增量數據集,另一個用於存儲需要被納入的第三方信息。基於不同的數據集細節,每一層次都具有自己的數據分類和治理策略。
對你的數據保持控制
Razorsight公司CTOSurenNathan還指出,建立和管理一個Hadoop數據湖需要具備良好的紀律性和組織性。否則系統很快就會變成一個失控的垃圾場,就像一個由很多文件組成的SharePoint,沒有人知道如何找到這些文件。
Razorsight為電信企業提供了一組基於雲的分析服務,2014年第二季度開始使用運行在Hadoop集群上MapR技術。客戶組、操作和網路數據通過自有工具被輸入到系統中,通過Spark引擎的處理後,由Razorsight數據科學家進行分析;集群具有五個生產節點和120TB的存儲容量。
和Webtrends類似的,Razorsight數據湖被分割成三個分區。在Razorsight的案例中,一個數據湖能夠存儲不到六個月的數據,另一個包含舊的但仍然活躍的數據,第三則存儲不再使用的但需要保留的信息。目前,在這兩個活動區域中有超過20TB的數據。為了保證系統工作平穩,Razorsight招聘了具備分布式系統的數據治理和開發經驗的新員工,同時也培訓現有員工使用Hadoop,Spark和相關技術的能力。
目前是遷移到新平台的階段。每TB大約花費2000美元,Hadoop集群成本僅僅是公司之前所部署的IBMNetezza數據倉庫系統的十分之一。但Nathan表示,Razorsight首先建立專門用於數據存儲的集群,然後再進入處理和准備階段。因為Netezza硬體和IBMSPSS分析軟體之間存在的緊密聯系,分析建模和數據可視化仍會存在於舊的系統中。建模將保持現狀,但Nathan預計到今年年底,將可視化層和Razorsight分析結果數據轉移到數據湖架構中。
轉自網界網:http://software.cnw.com.cn/software-database/htm2015/20150709_321300.shtml
來自TechTarget中國的作者:CraigStedman分享
轉自網界網:http://software.cnw.com.cn/software-database/htm2015/20150709_321300.shtml