開源大數據分析引擎_JAVA開源大數據查詢分析引擎有哪些方案

⑴ JAVA開源大數據查詢分析引擎有哪些方案

在大數據處理分析過程中常用的六大工具：HadoopHadoop是一個能夠對大量數據進行分布式處理的軟體框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。Hadoop是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。Hadoop還是可伸縮的，能夠處理PB級數據。此外，Hadoop依賴於社區伺服器，因此它的成本比較低，任何人都可以使用。HPCCHPCC，(高性能計算與通信)的縮寫。1993年，由美國科學、工程、技術聯邦協調理事會向國會提交了逗重大挑戰項目：高性能計算與通信地的報告，也就是被稱為HPCC計劃的報告，即美國總統科學戰略項目，其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃，該計劃的實施將耗資百億美元，其主要目標要達到：開發可擴展的計算系統及相關軟體，以支持太位級網路傳輸性能，開發千兆比特網路技術，擴展研究和教育機構及網路連接能力。StormStorm是自由的開源軟體，一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流，用於處理Hadoop的批量數據。Storm很簡單，支持許多種編程語言，使用起來非常有趣。ApacheDrill為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法，Apache軟體會近日發起了一項名為逗Drill地的開源項目。ApacheDrill實現了Google'sDremel.據Hadoop廠商MapRTechnologies公司產品經理TomerShiran介紹，逗Drill地已經作為Apache孵化器項目來運作，將面向全球軟體工程師持續推廣。RapidMinerRapidMiner是世界領先的數據挖掘解決方案，在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛，包括各種數據藝術，能簡化數據挖掘過程的設計和評價。

⑵ 大數據分析平台哪個好

國內的BI品牌都能做大數據分析，各有千秋，根據你的實際需求去挑選對比吧，朋友推薦過Smartbi，他家產品的功能和服務都還不錯。

⑶ 大數據分析界的「神獸」Apache Kylin有多牛

1.Apache Kylin是什麼？

在現在的大數據時代，越來越多的企業開始使用Hadoop管理數據，但是現有的業務分析工具（如Tableau，Microstrategy等）
往往存在很大的局限，如難以水平擴展、無法處理超大規模數據、缺少對Hadoop的支持；而利用Hadoop做數據分析依然存在諸多障礙，例如大多數分析
師只習慣使用SQL，Hadoop難以實現快速互動式查詢等等。神獸Apache Kylin就是為了解決這些問題而設計的。

Apache Kylin，中文名麒（shen）麟（shou）是Hadoop動物園的重要成員。Apache
Kylin是一個開源的分布式分析引擎，最初由eBay開發貢獻至開源社區。它提供Hadoop之上的SQL查詢介面及多維分析（OLAP）能力以支持大
規模數據，能夠處理TB乃至PB級別的分析任務，能夠在亞秒級查詢巨大的Hive表，並支持高並發。

Apache
Kylin於2014年10月在github開源，並很快在2014年11月加入Apache孵化器，於2015年11月正式畢業成為Apache頂級項
目，也成為首個完全由中國團隊設計開發的Apache頂級項目。於2016年3月，Apache
Kylin核心開發成員創建了Kyligence公司，力求更好地推動項目和社區的快速發展。

Kyligence是一家專注於大數據分析領域創新的數據科技公司，提供基於Apache
Kylin的企業級智能分析平台及產品，以及可靠、專業、源碼級的商業化支持；並推出Apache Kylin開發者培訓，頒發全球唯一的Apache
Kylin開發者認證證書。

2.Kylin的基本原理和架構

下面開始聊一聊Kylin的基本原理和架構。簡單來說，Kylin的核心思想是預計算，即對多維分析可能用到的度量進行預計算，將計算好的結果保
存成Cube，供查詢時直接訪問。把高復雜度的聚合運算、多表連接等操作轉換成對預計算結果的查詢，這決定了Kylin能夠擁有很好的快速查詢和高並發能
力。

上圖所示就是一個Cube的例子，假設我們有4個dimension，這個Cube中每個節點（稱作Cuboid）都是這4個dimension
的不同組合，每個組合定義了一組分析的dimension（如group
by），measure的聚合結果就保存在這每個Cuboid上。查詢時根據SQL找到對應的Cuboid，讀取measure的值，即可返回。

為了更好的適應大數據環境，Kylin從數據倉庫中最常用的Hive中讀取源數據，使用
MapRece作為Cube構建的引擎，並把預計算結果保存在HBase中，對外暴露Rest
API/JDBC/ODBC的查詢介面。因為Kylin支持標準的ANSI
SQL，所以可以和常用分析工具（如Tableau、Excel等）進行無縫對接。下面是Kylin的架構圖。

說到Cube的構建，Kylin提供了一個稱作Layer Cubing的演算法。簡單來說，就是按照dimension數量從大到小的順序，從Base
Cuboid開始，依次基於上一層Cuboid的結果進行再聚合。每一層的計算都是一個單獨的Map Rece任務。如下圖所示。

MapRece的計算結果最終保存到HBase中，HBase中每行記錄的Rowkey由dimension組成，measure會保存在
column
family中。為了減小存儲代價，這里會對dimension和measure進行編碼。查詢階段，利用HBase列存儲的特性就可以保證Kylin有
良好的快速響應和高並發。

有了這些預計算的結果，當收到用戶的SQL請求，Kylin會對SQL做查詢計劃，並把本該進行的Join、Sum、Count Distinct等操作改寫成Cube的查詢操作。

Kylin提供了一個原生的Web界面，在這里，用戶可以方便的創建和設置Cube、管控Cube構建進度，並提供SQL查詢和基本的結果可視化。

根據公開數據顯示，Kylin的查詢性能不只是針對個別SQL，而是對上萬種SQL 的平均表現，生產環境下90%ile查詢能夠在在3s內返回。在上個月舉辦的Apache Kylin

Meetup中，來自美團、京東、網路等互聯網公司分享了他們的使用情況。例如，在京東雲海的案例中，單個Cube最大有8個維度，最大數據條數4億，最
大存儲空間800G，30個Cube共占存儲空間4T左右。查詢性能上，當QPS在50左右，所有查詢平均在200ms以內，當QPS在200左右，平均
響應時間在1s以內。

北京移動也在meetup上展示了Kylin在電信運營商的應用案例，從數據上看，Kylin能夠在比Hive/SparkSQL在更弱的硬體配置下獲得更好的查詢性能。目前，有越來越多的國內外公司將Kylin作為大數據生產環境中的重要組件，如ebay、銀聯、網路、中國移動等。大家如果想了解更多社區的案例和動態，可以登錄Apache Kylin官網或Kyligence博客進行查看。

3.Kylin的最新特性

Kylin的最新版本1.5.x引入了不少讓人期待的新功能，可擴展架構將Kylin的三大依賴（數據源、Cube引擎、存儲引
擎）徹底解耦。Kylin將不再直接依賴於Hadoop/HBase/Hive，而是把Kylin作為一個可擴展的平台暴露抽象介面，具體的實現以插件的
方式指定所用的數據源、引擎和存儲。

開發者和用戶可以通過定製開發，將Kylin接入除Hadoop/HBase/Hive以外的大數據系統，比如用Kafka代替Hive作數據源，用
Spark代替MapRece做計算引擎，用Cassandra代替HBase做存儲，都將變得更為簡單。這也保證了Kylin可以隨平台技術一起演
進，緊跟技術潮流。

在Kylin
1.5.x中還對HBase存儲結構進行了調整，將大的Cuboid分片存儲，將線性掃描改良為並行掃描。基於上萬查詢進行了測試對比結果顯示，分片的存
儲結構能夠極大提速原本較慢的查詢5-10倍，但對原本較快的查詢提速不明顯，綜合起來平均提速為2倍左右。

除此之外，1.5.x還引入了Fast
cubing演算法，利用Mapper端計算先完成大部分聚合，再將聚合後的結果交給Recer，從而降低對網路瓶頸的壓力。對500多個Cube任務
的實驗顯示，引入Fast cubing後，總體的Cube構建任務提速1.5倍。

目前，社區正在著手准備Apache Kylin 1.5.2版本的發布，目前正處於Apache Mailing list投票階段，預計將會在本周在Kylin官網發布正式下載。

在本次的1.5.2版本中，Kylin帶來了總計
36個缺陷修復、33個功能改進、6個新功能。一些主要的功能改進包括對HyperLogLog計算效率的提升、在Cube構建時對Convert
data to hfile步驟的提速、UI上對功能提示的體驗優化、支持hive view作為lookup表等等。

另一個新消息是Kylin將支持MapR和CDH的Hadoop發行版，具體信息可見KYLIN-1515和KYLIN-1672。相應的測試版本是MapR5.1和CDH5.7。

UI上提供了一個重要更新，即允許用戶在Cube級別進行自定義配置，以覆蓋kylin.properties中的全局配置。如在cube中定義kylin.hbase.region.count.max 可以設置該cube在hbase中region切分的最大數量。

另
一個重要的功能是Diagnosis。用戶經常會遇到一些棘手的問題，例如Cube構建任務失敗、SQL查詢失敗，或Cube構建時間過長、SQL查詢時
間過長等。但由於運維人員對Kylin系統了解不深，很難快速定位到root cause所在地。我們在mailing
list里也經常看到很多用戶求助，由於不能提供足夠充分的信息，社區也很難給出一針見血的建議。

當用戶遇到查詢、Cube/Model管理的問題，單擊System頁面的Diagnosis按鈕，系統會自動抓取當前Project相關的信息並打包成
zip文件下載到用戶本地。這個包會包含相關的Metadata、日誌、HBase配置等。當用戶需要在mailing
list求助，也可以附上這個包。

⑷ 大數據分析工具有哪些，有什麼特點

數據分析再怎麼說也是一個專業的領域，沒有數學、統計學、資料庫這些知識的支撐，對於我們這些市場、業務的人員來說，難度真的不是一點點。從國外一線大牌到國內宣傳造勢強大的品牌，我們基本試用了一個遍，總結一句話「人人都是數據分析師」這個坑實在太大，所有的數據分析工具無論宣傳怎樣，都有一定的學習成本，尤其是要深入業務實際。今天就我們用過的幾款工具簡單總結一下，與大家分享。
1、Tableau
這個號稱敏捷BI的扛把子，魔力象限常年位於領導者象限，界面清爽、功能確實很強大，實至名歸。將數據拖入相關區域，自動出圖，圖形展示豐富，交互性較好。圖形自定義功能強大，各種圖形參數配置、自定義設置可以靈活設置，具備較強的數據處理和計算能力，可視化分析、互動式分析體驗良好。確實是一款功能強大、全面的數據可視化分析工具。新版本也集成了很多高級分析功能，分析更強大。但是基於圖表、儀錶板、故事報告的邏輯，完成一個復雜的業務匯報，大量的圖表、儀錶板組合很費事。給領導匯報的PPT需要先一個個截圖，然後再放到PPT裡面。作為一個數據分析工具是合格的，但是在企業級這種應用匯報中有點局限。
2、PowerBI
PowerBI是蓋茨大佬推出的工具，我們也興奮的開始試用，確實完全不同於Tableau的操作邏輯，更符合我們普通數據分析小白的需求，操作和Excel、PPT類似，功能模塊劃分清晰，上手真的超級快，圖形豐富度和靈活性也是很不錯。但是說實話，畢竟剛推出，系統BUG很多，可視化分析的功能也比較簡單。雖然有很多復雜的數據處理功能，但是那是需要有對Excel函數深入理解應用的基礎的，所以要支持復雜的業務分析還需要一定基礎。不過版本更新倒是很快，可以等等新版本。
3、Qlik
和Tableau齊名的數據可視化分析工具，QlikView在業界也享有很高的聲譽。不過Qlik Seanse產品系列才在大陸市場有比較大的推廣和應用。真的是一股清流，界面簡潔、流程清晰、操作簡單，交互性較好，真的是一款簡單易用的BI工具。但是不支持深度的數據分析，圖形計算和深度計算功能缺失，不能滿足復雜的業務分析需求。

最後將視線聚焦國內，目前搜索排名和市場宣傳比較好的也很多，永洪BI、帆軟BI、BDP等。不過經過個人感覺整體宣傳大於實際。
4、永洪BI
永洪BI功能方面應該是相對比較完善的，也是拖拽出圖，有點類似Tableau的邏輯，不過功能與Tableau相比還是差的不是一點半點，但是操作難度居然比Tableau還難。預定義的分析功能比較豐富，圖表功能和靈活性較大，但是操作的友好性不足。宣傳擁有高級分析的數據挖掘功能，後來發現就集成了開源的幾個演算法，功能非常簡單。而操作過程中大量的彈出框、難以理解含義的配置項，真的讓人很暈。一個簡單的堆積柱圖，就研究了好久，看幫助、看視頻才搞定。哎，只感嘆功能藏得太深，不想給人用啊。
5、帆軟BI
再說號稱FBI的帆軟BI，帆軟報表很多國人都很熟悉，功能確實很不錯，但是BI工具就真的一般般了。只能簡單出圖，配合報表工具使用，能讓頁面更好看，但是比起其他的可視化分析、BI工具，功能還是比較簡單，分析的能力不足，功能還是比較簡單。帆軟名氣確實很大，號稱行業第一，但是主要在報表層面，而數據可視化分析方面就比較欠缺了。
6、Tempo
另一款工具，全名叫「Tempo大數據分析平台」，宣傳比較少，2017年Gartner報告發布後無意中看到的。是一款BS的工具，申請試用也是費盡了波折啊，永洪是不想讓人用，他直接不想賣的節奏。
第一次試用也是一臉懵逼，不知道該點那！不過抱著破罐子破摔的心態稍微點了幾下之後，操作居然越來越流暢。也是拖拽式操作，數據可視化效果比較豐富，支持很多便捷計算，能滿足常用的業務分析。最最驚喜的是它還支持可視化報告導出PPT，徹底解決了分析結果輸出的問題。深入了解後，才發現他們的核心居然是「數據挖掘」，演算法十分豐富，也是拖拽式操作，我一個文科的分析小白，居然跟著指導和說明做出了一個數據預測的挖掘流，簡直不要太驚喜。掌握了Tempo的基本操作邏輯後，居然發現他的易用性真的很不錯，功能完整性和豐富性也很好。不過沒有宣傳也是有原因的，系統整體配套的介紹、操作說明的完善性上還有待提升。

⑸ 大數據的數據整合和資源共享技術有哪些

非常多的，問答不能發link，不然我給你link了。有譬如Hadoop等開源大數據項目的，編程語言的，以下就大數據底層技術說下。

簡單以永洪科技的技術說下，有四方面，其實也代表了部分通用大數據底層技術：
Z-Suite具有高性能的大數據分析能力，她完全摒棄了向上升級(Scale-Up)，全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據：

跨粒度計算(In-DatabaseComputing)
Z-Suite支持各種常見的匯總，還支持幾乎全部的專業統計函數。得益於跨粒度計算技術，Z-Suite數據分析引擎將找尋出最優化的計算方案，繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算，我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動，降低了通訊負擔，保證了高性能數據分析。

並行計算(MPP Computing)
Z-Suite是基於MPP架構的商業智能平台，她能夠把計算分布到多個計算節點，再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源，不管是伺服器還是普通的PC，她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據平台，Z-Suite能夠充分發揮各個節點的計算能力，輕松實現針對TB/PB級數據分析的秒級響應。

列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市，不讀取無關數據，能降低讀寫開銷，同時提高I/O 的效率，從而大大提高查詢性能。另外，列存儲能夠更好地壓縮數據，一般壓縮比在5 -10倍之間，這樣一來，數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術，節省了存儲設備和內存的開銷，卻大大了提升計算性能。

內存計算
得益於列存儲技術和並行計算技術，Z-Suite能夠大大壓縮數據，並同時利用多個節點的計算能力和內存容量。一般地，內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算，CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速，是實現大數據分析的關鍵應用技術。

⑹ JAVA開源大數據查詢分析引擎有哪些方案

對大數據分抄析的項目來說，技術往往不是最關鍵的，關鍵在於誰的生態系統更強，技術上一時的領先並不足以保證項目的最終成功。對於Hive、 Impala、Shark、Stinger和Presto來講，最後哪一款產品會成為事實上的標准還很難說，但我們唯一可以確定並堅信的一點是，大數據分析將隨著新技術的不斷推陳出新而不斷普及開來，這對用戶永遠都是一件幸事。舉個例子，如果讀者注意過下一代Hadoop（YARN）的發展的話就會發現，其實YARN已經支持Map-Rece之外的計算範式（例如Shark，Impala等），因此將來Hadoop將可能作為一個兼容並包的大平台存在，在其上提供各種各樣的數據處理技術，有應對秒量級查詢的，有應對大數據批處理的，各種功能應有盡有，滿足用戶各方面的需求。

⑺ JAVA開源大數據查詢分析引擎有哪些方案

大數據查詢分析是雲計算中核心問題之一，自從Google在2006年之前的幾篇論文奠定雲計算領域基礎，尤其是GFS、Map-Rece、 Bigtable被稱為雲計算底層技術三大基石。GFS、Map-Rece技術直接支持了Apache Hadoop項目的誕生。Bigtable和Amazon Dynamo直接催生了NoSQL這個嶄新的資料庫領域，撼動了RDBMS在商用資料庫和數據倉庫方面幾十年的統治性地位。FaceBook的Hive項目是建立在Hadoop上的數據倉庫基礎構架，提供了一系列用於存儲、查詢和分析大規模數據的工具。當我們還浸淫在GFS、Map-Rece、 Bigtable等Google技術中，並進行理解、掌握、模仿時，Google在2009年之後，連續推出多項新技術，包括：Dremel、 Pregel、Percolator、Spanner和F1。其中，Dremel促使了實時計算系統的興起，Pregel開辟了圖數據計算這個新方向，Percolator使分布式增量索引更新成為文本檢索領域的新標准，Spanner和F1向我們展現了跨數據中心資料庫的可能。在Google的第二波技術浪潮中，基於Hive和Dremel，新興的大數據公司Cloudera開源了大數據查詢分析引擎Impala，Hortonworks開源了 Stinger，Fackbook開源了Presto。類似Pregel，UC Berkeley AMPLAB實驗室開發了Spark圖計算框架，並以Spark為核心開源了大數據查詢分析引擎Shark。

⑻ 大數據分析平台有哪些作用

一、數據驅動事務

經過數據產品、數據發掘模型實現企業產品和運營的智版能化，然後極大的權進步企業的全體效能產出。最常見的應用領域有根據個性化推薦技術的精準營銷服務、廣告服務、根據模型演算法的風控反詐騙服務徵信服務等。

二、數據對外變現

經過對數據進行精心的包裝，對外供給數據服務，然後取得現金收入。市面上比較常見有各大數據公司利用自己把握的大數據，供給風控查詢、驗證、反詐騙服務，供給導客、導流、精準營銷服務，供給數據開放渠道服務等。

三、數據輔助決議計劃

為企業供給根底的數據計算報表分析服務。分析師能夠容易獲取數據產出分析報告指導產品和運營，產品司理能夠經過計算數據完善產品功用和改進用戶體驗，運營人員能夠經過數據發現運營問題並確定運營的策略和方向，管理層能夠經過數據把握公司事務運營情況，然後進行一些戰略決議計劃。

關於大數據分析平台有哪些作用，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

⑼ 海量數據的存儲技術屬於大數據的關鍵技術嗎

非常多的，問答不能發link，不然我給你link了。有譬如Hadoop等開源大數據項目的，編程語言的，以下就大數據底層技術說下。

簡單以永洪科技的技術說下，有四方面，其實也代表了部分通用大數據底層技術：
Z-Suite具有高性能的大數據分析能力，她完全摒棄了向上升級(Scale-Up)，全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據：

跨粒度計算(In-DatabaseComputing)
Z-Suite支持各種常見的匯總，還支持幾乎全部的專業統計函數。得益於跨粒度計算技術，Z-Suite數據分析引擎將找尋出最優化的計算方案，繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算，我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動，降低了通訊負擔，保證了高性能數據分析。

並行計算(MPP Computing)
Z-Suite是基於MPP架構的商業智能，她能夠把計算分布到多個計算節點，再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源，不管是伺服器還是普通的PC，她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據，Z-Suite能夠充分發揮各個節點的計算能力，輕松實現針對TB/PB級數據分析的秒級響應。

列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市，不讀取無關數據，能降低讀寫開銷，同時提高I/O 的效率，從而大大提高查詢性能。另外，列存儲能夠更好地壓縮數據，一般壓縮比在5 -10倍之間，這樣一來，數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術，節省了存儲設備和內存的開銷，卻大大了提升計算性能。

內存計算
得益於列存儲技術和並行計算技術，Z-Suite能夠大大壓縮數據，並同時利用多個節點的計算能力和內存容量。一般地，內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算，CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速，是實現大數據分析的關鍵應用技術。

導航:首頁 > 網路數據 > 開源大數據分析引擎

開源大數據分析引擎

與開源大數據分析引擎相關的資料

友情鏈接