导航:首页 > 网络数据 > 南京大数据meetup

南京大数据meetup

发布时间:2021-12-02 14:38:23

『壹』 Spark与Hadoop MapRece大比拼,谁实力更强

一提到大数据处理,相信很多人第一时间想到的是 Hadoop MapRece。没错,Hadoop MapRece 为大数据处理技术奠定了基础。近年来,随着 Spark 的发展,越来越多的声音提到了 Spark。而Spark相比Hadoop MapRece有哪些优势?
Spark与Hadoop MapRece在业界有两种说法 :一是 Spark 将代替 Hadoop MapRece,成为未来大数据处理发展的方向 ;二是 Spark 将会和 Hadoop 结合,形成更大的生态圈。其实 Spark 和 Hadoop MapRece 的重点应用场合有所不同。相对于 Hadoop MapRece 来说,Spark 有点“青出于蓝”的感觉,Spark 是在Hadoop MapRece 模型上发展起来的,在它的身上我们能明显看到 MapRece的影子,所有的 Spark 并非从头创新,而是站在了巨人“MapRece”的肩膀上。千秋功罪,留于日后评说,我们暂且搁下争议,来看看相比 Hadoop MapRece,Spark 都有哪些优势。
1、计算速度快
大数据处理首先追求的是速度。Spark 到底有多快?用官方的话说,“Spark 允许 Hadoop 集群中的应用程序在内存中以 100 倍的速度运行,即使在磁盘上运行也能快 10 倍”。可能有的读者看到这里会大为感叹,的确如此,在有迭代计算的领域,Spark 的计算速度远远超过 MapRece,并且迭代次数越多,Spark 的优势越明显。这是因为 Spark 很好地利用了目前服务器内存越来越大这一优点,通过减少磁盘 I/O 来达到性能提升。它们将中间处理数据全部放到了内存中,仅在必要时才批量存入硬盘中。或许读者会问 :如果应用程序特别大,内存能放下多少 GB ?答曰 :什么? GB ?目前 IBM 服务器内存已经扩展至几 TB 了。
2、应用灵活,上手容易
知道 AMPLab 的 Lester 为什么放弃 MapRece 吗?因为他需要把很多精力放到Map和Rece的编程模型上,极为不便。 Spark在简单的Map及Rece操作之外,还支持 SQL 查询、流式查询及复杂查询,比如开箱即用的机器学习算法。同时,用户可以在同一个工作流中无缝地搭配这些能力,应用十分灵活。
Spark 核心部分的代码为 63 个 Scala 文件,非常的轻量级。并且允许 java、Scala、Python 开发者在自己熟悉的语言环境下进行工作,通过建立在Java、Scala、Python、SQL(应对交互式查询)的标准 API 以方便各行各业使用,同时还包括大量开箱即用的机器学习库。它自带 80 多个高等级操作符,允许在 Shell中进行交互式查询。即使是新手,也能轻松上手应用。
3、兼容竞争对手
Spark 可以独立运行,除了可以运行在当下的 YARN 集群管理外,还可以读取已有的任何 Hadoop 数据。它可以运行在任何 Hadoop 数据源上,比如 HBase、HDFS 等。有了这个特性,让那些想从 Hadoop 应用迁移到 Spark 上的用户方便了很多。Spark 有兼容竞争对手的胸襟,何愁大事不成?
4、实时处理性能非凡
MapRece 更 加 适 合 处 理 离 线 数 据( 当 然, 在 YARN 之 后,Hadoop也可以借助其他工具进行流式计算)。Spark 很好地支持实时的流计算,依赖Spark Streaming 对数据进行实时处理。Spark Streaming 具备功能强大的 API,允许用户快速开发流应用程序。而且不像其他的流解决方案,比如Storm,Spark Streaming 无须额外的代码和配置,就可以做大量的恢复和交付工作。
5、社区贡献力量巨大
从 Spark 的版本演化来看,足以说明这个平台旺盛的生命力及社区的活跃度。尤其自 2013 年以来,Spark 一度进入高速发展期,代码库提交与社区活跃度都有显著增长。以活跃度论,Spark 在所有的 Apache 基金会开源项目中位列前三,相较于其他大数据平台或框架而言,Spark 的代码库最为活跃。
Spark 非常重视社区活动,组织也极为规范,会定期或不定期地举行与 Spark相关的会议。会议分为两种 :一种是 Spark Summit,影响力极大,可谓全球 Spark顶尖技术人员的峰会,目前已于 2013—2015 年在 San Francisco 连续召开了三届Summit 大会 ;另一种是 Spark 社区不定期地在全球各地召开的小型 Meetup 活动。Spark Meetup 也会在我国的一些大城市定期召开,比如北京、深圳、西安等地,读者可以关注当地的微信公众号进行参与。
Spark 的适用场景
从大数据处理需求来看,大数据的业务大概可以分为以下三类 :
(1)复杂的批量数据处理,通常的时间跨度在数十分钟到数小时之间。
(2)基于历史数据的交互式查询,通常的时间跨度在数十秒到数分钟之间。
(3)基于实时数据流的数据处理,通常的时间跨度在数百毫秒到数秒之间。
目前已有很多相对成熟的开源和商业软件来处理以上三种情景 :第一种业务,可以利用 MapRece 来进行批量数据处理 ;第二种业务,可以用 Impala 来进行交互式查询 ;对于第三种流式数据处理,可以想到专业的流数据处理工具Storm。但是这里有一个很重要的问题 :对于大多数互联网公司来说,一般会同时遇到以上三种情景,如果采用不同的处理技术来面对这三种情景,那么这三种情景的输入/ 输出数据无法无缝共享,它们之间可能需要进行格式转换,并且每个开源软件都需要一支开发和维护团队,从而提高了成本。另外一个不便之处就是,在同一个集群中对各个系统协调资源分配比较困难。
那么,有没有一种软件可以同时处理以上三种情景呢? Spark 就可以,或者说有这样的潜力。Spark 同时支持复杂的批处理、互操作和流计算,而且兼容支持HDFS 和 Amazon S3 等分布式文件系统,可以部署在 YARN 和 Mesos 等流行的集群资源管理器上。
从 Spark 的设计理念(基于内存的迭代计算框架)出发,其最适合有迭代运算的或者需要多次操作特定数据集的应用场合。并且迭代次数越多,读取的数据量越大,Spark 的应用效果就越明显。因此,对于机器学习之类的“迭代式”应用,Spark 可谓拿手好戏,要比 Hadoop MapRece 快数十倍。另外,Spark Streaming因为内存存储中间数据的特性,处理速度非常快,也可以应用于需要实时处理大数据的场合。
当然,Spark 也有不适用的场合。对于那种异步细粒度更新状态的应用,例如 Web 服务的存储或增量的 Web 爬虫和索引,也就是对于那种增量修改的应用模型不适合。Spark 也不适合做超级大的数据量的处理,这里所说的“超级大”是相对于这个集群的内存容量而言的,因为 Spark 要将数据存储在内存中。一般来说,10TB 以上(单次分析)的数据就可以算是“超级大”的数据了。
一般来说,对于中小企业的数据中心而言,在单次计算的数据量不大的情况下,Spark 都是很好的选择。另外,Spark 也不适合应用于混合的云计算平台,因为混合的云计算平台的网络传输是很大的问题,即便有专属的宽带在云端 Cluster和本地 Cluster 之间传输数据,相比内存读取速度来说,依然不抵。

『贰』 如何在云服务提供商的平台上使用Docker Machine

IBM中国研究院高级研究员陈冠诚主要从事Big Data on Cloud,大数据系统性能分析与优化方面的技术研发。负责和参与过SuperVessel超能云的大数据服务开发,Hadoop软硬件协同优化,MapRece性能分析与调优工具,高性能FPGA加速器在大数据平台上应用等项目。在Supercomputing(SC),IEEE BigData等国际顶级会议和期刊上发表过多篇大数据数据处理技术相关的论文,并拥有八项大数据领域的技术专利。曾在《程序员》杂志分享过多篇分布式计算,大数据处理技术等方面的技术文章。以下为媒体针对陈冠诚的专访:

问:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。

陈冠诚:我是IBM中国研究院的高级研究员,大数据云方向的技术负责人。我们围绕Spark主要做两方面的事情:第一,在IBM研究院的SuperVessel公有云上开发和运维Spark as a Service大数据服务。第二,在OpenPOWER架构的服务器上做Spark的性能分析与优化。

问:您所在的企业是如何使用Spark 技术的?带来了哪些好处?

陈冠诚:Spark作为新一代的大数据处理引擎主要带来了两方面好处:

相比于MapRece在性能上得到了很大提升。

在一个统一的平台上将批处理、SQL、流计算、图计算、机器学习算法等多种范式集中在一起,使混合计算变得更加的容易。

问:您认为Spark 技术最适用于哪些应用场景?

陈冠诚:大规模机器学习、图计算、SQL等类型数据分析业务是非常适合使用Spark的。当然,在企业的技术选型过程中,并不是说因为Spark很火就一定要使用它。例如还有很多公司在用Impala做数据分析,一些公司在用Storm和Samaza做流计算,具体的技术选型应该根据自己的业务场景,人员技能等多方面因素来做综合考量。

问:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做?

陈冠诚:企业想要拥抱Spark技术,首先需要技术人员改变。是否有给力的Spark人才会是企业能否成功应用Spark最重要的因素。多参与Spark社区的讨论,参加Spark Meetup,给upstrEAM贡献代码都是很好的切入方式。如果个人开发者想快速上手Spark,可以考虑使用SuperVessel免费的Spark公有云服务,它能快速创建一个Spark集群供大家使用。

问:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的?

陈冠诚:我们在对Spark进行性能调优时遇到很多问题。例如JVM GC的性能瓶颈、序列化反序列化的开销、多进程好还是多线程好等等。在遇到这些问题的时候,最好的方法是做好Profiling,准确找到性能瓶颈,再去调整相关的参数去优化这些性能瓶颈。

另一方面,我们发现如果将Spark部署在云环境里(例如OpenStack管理的Docker Container)时,它的性能特征和在物理机上部署又会有很大的不同,目前我们还在继续这方面的工作,希望以后能有机会跟大家继续分享。

问:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进?

陈冠诚:在与OpenStack这样的云操作系统的集成上,Spark还是有很多工作可以做的。例如与Docker Container更好的集成,对Swift对象存储的性能优化等等。

问:您在本次演讲中将分享哪些话题?

陈冠诚:我将分享的话题是“基于OpenStack、Docker和Spark打造SuperVessel大数据公有云”:

随着Spark在2014年的蓬勃发展,Spark as a Service大数据服务正成为OpenStack生态系统中的新热点。另一方面,Docker Container因为在提升云的资源利用率和生产效率方面的优势而备受瞩目。在IBM中国研究院为高校和技术爱好者打造的SuperVessel公有云中,我们使用OpenStack、Docker和Spark三项开源技术,在OpenPOWER服务器上打造了一个大数据公有云服务。本次演讲我们会向大家介绍如何一步一步使用Spark、Docker和OpenStack打造一个大数据公有云,并分享我们在开发过程中遇到的问题和经验教训。

问:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

陈冠诚:对如何构造一个大数据云感兴趣的同学应该会对这个话题感兴趣,开发SuperVessel的Spark as a Service服务过程中我们所做的技术选型、架构设计以及解决的问题应该能对大家有所帮助。(来源:CSDN)

『叁』 Docker生态会重蹈Hadoop的覆辙吗

一、Docker的兴起和Hadoop何其相似
2015年说是Docker之年不为过,Docker热度高涨,IT从业人员要是说自己不知道Docker都不好意说自己是做IT的。2016年开始容器管理、集群调度成为热点,K8s开始成为热点。但这一幕和2013年的Hadoop大数据何其相似,当年你要说自己不知道大数据,或是知道大数据不知道Hadoop,那必然招来鄙视的眼光。
云计算喊了这么久,从来没有像Docker这么火过,究其原因不外乎两条:
1、开发者能够用Docker,开发者要一个开发环境,总会涉及到种种资源,比如数据库,比如消息中间件,去装这些东西不是开发人员的技能,是运维人员的技能。而用Docker去Pull一个mySQL镜像,或是Tomcat镜像,或是RabbitMQ镜像,简易轻松,几乎是零运维。做好了应用代码,打一个Docker镜像给测试或是运维人员,避免了从前打个程序包给测试或是运维人员,测试或运维人员要部署、配置应用,还得反反复复来麻烦开发人员,现在好了,丢个Docker镜像过去,让运维人员跑镜像就可以,配置在镜像里基本都做好了。
这正好满足了DevOps的要求,所以DevOps也一下热起来了。开发者是一个巨大的市场,是海量的个体,通过类似于病毒式的传销,Docker一下在开发者中热起来了。
2、镜像仓库和开源,谁都可以用,Docker镜像库非常丰富,谁做好一个镜像都可以往公有仓库推送,开发人员需要一个环境的时候,可以到Docker镜像仓库去查,有海量的选择,减少了大量无谓的环境安装工作。而通过开源,又开始大规模传播。
我们再来回顾看看2010-2013年,大数据的名词火遍大江南北,各行各业都在谈大数据,但是落到技术上就是Hadoop,还记得2012年的时候,和Hadoop没啥毛关系的VMWare也赶紧的做了一个虚机上部署Hadoop的serengeti,谁家产品要是和Hadoop不沾点边,不好意思说自己是IT公司。Hadoop当年的热度绝对不亚于2014-2015的Docker。而且时间上有一定的连续性,2014年开始,Hadoop热度达到顶点,开始逐渐降温,标志事件就是Intel投资Cloudera。而Docker是从2014年开始热度升高的。
再看Hadoop为何在2010年前后开始热起来,之前的大数据都是数据仓库,是昂贵的企业级数据分析并行数据库,而Hadoop是廉价的大数据处理模式,通过开源和X86廉价硬件,使得Hadoop可以大规模使用,而互联网时代产生的海量数据虽然垃圾居多,但是沙里淘金,也能淘出点价值,Hadoop正好迎合了这两个需求,虽然Hadoop的无论是功能还是性能远比MPP数据库差,但做简单的数据存储、数据查询、简单数据统计分析还是可以胜任的,事实上,到目前为止,大多数的Hadoop应用也就是数据存储、数据查询和简单的数据统计分析、ETL的业务处理。
Docker和Hadoop的热起来的原因不同,但是现象是差不多,开源和使用者群体大是共同要素。
二、Hadoop从狂热走向了理性
Hadoop最热的时候,几乎就是要replace所有数据库,连Oracle也面临了前所未有的冲击,甚至Hadoop成了去IOE的Oracle的使命之一。在狂热的那个阶段,客户怎么也得做一两个大数据项目,否则会被同行瞧不起,各IT厂商也必须推出大数据产品,否则可能成为IT过时的典范,这不IBM成立了专门的大数据部门,打造了一个以Hadoop为核心的庞大的大数据解决方案。
Intel虽然是做芯片的,但是大数据必须掺和,成立大数据部门,做Intel Hadoop 。连数据库的老大Oracle也憋不住了,做了个大数据一体机。
任何曾经狂热的新技术都会走向理性,Hadoop也不例外,只不过,这个进程还比较快。随着大数据的大跃进,随着Hadoop的应用越来越多,大家发现在被夸大的场景应用大数据效果并不好,只在特定场景有效,Hadoop进入理性发展阶段,比如一开始Hadoop据取代MPP数据库,取代数据仓库,取代Oracle,完美支持SQL等等均基本成为泡影。这其实本来是一个常识,任何技术都有其应用场景,夸大应用场景,任意扩展应用场景只会伤害这个技术的发展。
“这和目前无限夸大Docker的应用场景有异曲同工之妙,比如Docker向下取代虚拟化,Docker向上取代PaaS之类,几乎成了云计算的唯一技术,这种论调一直充斥各种Meetup/论坛。虽然技术从夸大到理性需要时间,但是理性不会总是迟到。
Hadoop技术在发展,大数据的相关技术也在发展,Hadoop一直被诟病的处理速度慢,慢慢的被Spark/Storm等解决,特别在流数据处理领域。
所以,时至今日,人们对Hadoop的态度趋于理性,它只适合在特定场景使用,可是,当初那些在Hadoop不太适用的场景使用了Hadoop的客户交了学费的事情估计没人再提了。Docker估计也是一样的,总有在夸大的场景中交学费的客户,可是只是客户没眼光吗?和无限夸大某种技术的布道师无关么?
再反观大数据和Docker在全球的发展,在美国,无论是Hadoop和Docker并没有像国内这么狂热过。Hadoop技术来源于Google,成型于Yahoo(DougCutting),而炒作却是在国内。同样,Docker也在走这么个流程,在美国没有这么多的Docker创业公司,主要就是Docker,然后各大厂商支持,创业公司和创投公司都知道,没有自己的技术或是技术受制于人的公司不值得投资,既然Docker一家独大,再去Docker分一杯羹会容易吗?
而国内二三十家的Docker创业公司,没有一家能对Docker/K8s源码有让人醒目的贡献(反倒是华为在K8s上有些贡献),但是都在市场上拼嗓门,不是比谁的技术有潜力最有市场,而是比谁最能布道谁嗓门大,谁做的市场活动多,某Docker创业公司据说80%的资金用在市场宣传、Meetup上,而且不是个别现象,是普遍现象。反应了某些Docker创业者的浮躁心态。

『肆』 区块链就业薪资大概是多少

最近这两个月,整个加密货币市场行情波动很大,有人笑有人哭,有人觉得是牛市来了,有人认为是短期高点。

USDT持续增发,喊单社区不断扩大,Meetup一场接一场,微博热搜来了又来。

整个行业似乎像回光返照一般,来了一次又一次的过山车。
惊叹着,寂寥着,庆幸着,后悔着。
一次又一次冲击着行业内外的情绪。

直到今天,比特币24小时跌幅达11.52%,期货24小时内爆仓高达4.4亿美元。
1. 最近正在面试的朋友和我说,行业内某个公链项目,大概平均3个月一次大规模的人员流动,基本上每天都有新人来,每天都有旧人走。再深入一问,大多都是做些基础岗位,在行业里凑个热闹的。

对于运营的理解,基本停留在拉个微信群做客服、上传文章和做个无人问津的、数据拿不出手的小活动。

去年底,前年参与的某个公链项目方的客服人员离职,这个声明来自海外的项目一下子连个会说国语的都没有了,好像现在官网都打不开了。
半年后再见面,发现他又从上一家一个DAPP公司离职了,现在是某个项目方的某某总监。(作者:猫Buboo,区块链行业运营/前新浪高级运营/Odaily星球日报特邀作者/金色财经专栏作者)
美其名曰,“追逐风口。”

摊手。
没有掌握专业技能的人员流动,估计离开区块链行业就找不到工作了吧。

2. 前阵子和一个在区块链公司做前端的朋友吃饭,他现在穷困潦倒。
原来是去年加仓公司的币却被深套,老板还在不断打鸡血,如何看好这个项目云云。

对于区块链行业的未来,我们是怎么看的;对于这个项目的前景,又是怎么准备筹划的;我们的梦想是星辰大海,我们要改变XX…

(估计散户正在OS:不拉盘都是垃圾)

扶额。

一年后老板也离职了。

很魔幻,区块链没有梦想。

3. 之前带过一个实习生,就那种做个内容分发都能磨蹭做三天那种。刚入行赚了几笔后信心满满直接辞职不工作了,专门做合约。起起落落后一统计,不仅没有赚钱,还倒欠了一堆债务。

于是出来重新找工作了,开价14K。

一个新生的行业有太多的混水摸鱼之辈,每个身在期间的人都有自己赚钱的门路。有不少冲着这个行业的高薪资而来,有不少冲着这个行业不透明而来,各自看准一个点就一头扎进去了。

时间是你的朋友还是你的敌人,恐怕只有你自己知道。

4. 有个高中同学年后入职了一家项目方,一周前和我喝酒的时候吐槽道,负责人以为做出来了项目用户自然就会来,用户没有那肯定是运营不给力。

开什么玩笑。
都9102年了,思维怎么还在1997年?

好,实在不行就开始刷量了,动不动就一个月10万活跃用户,PR稿在圈内满天飞。

这些数据做什么用的?“拉盘啊。”

在这里,数据造假是各自心里清楚的常态。
你可以看到一个UV不到3000的媒体,平台的文章阅读量可以数十万;你可以看到一则消息刷屏你的朋友圈,除此之外没有一个人会留意,甚至是完全不知道;你可以看到就一个微信群不到500用户的项目,IEO后市值2个多亿。(作者:猫Buboo,区块链行业运营/前新浪高级运营/Odaily星球日报特邀作者/金色财经专栏作者)

好像离钱很近,一个季度的流水几千万美金,一个月的利润高达几个亿。
又好像离钱很远,因为这些和你都没有什么关系。

别说什么区块链革命,也别说区块链骗局,更不要说区块链是阶层晋升的最后机会。
抛开只有少部分人真正看得懂的、真正拥有的技术,你要做的,是认清自己在这个行业的定位。

区块链的故事很多,但你只是一个普通人。

想做韭菜,请直接打钱,别浪费时间和精力。

想在这个行业深扎,请脚踏实地。
做点实事,对得起自己的时间。

『伍』 国内的大型区块链公司都有哪些

国内的大型区块链公司有新晨科技、银江股份、文化长城、广电运通、恒生电子等。

1、新晨科技

公司现主营是应用软件开发业务、软硬件系统集成业务和专业技术服务业务。近年新晨科技在创新方面尝试较为大胆,公司在云计算、大数据、人工智能以及区块链等新技术在金融行业的应用均取得一定进展。基于区块链技术的国内信用证业务系统已经成功在银行上线,并有望逐步成为公司软件解决方案业务新的增长点。

2、银江股份

公司主要向交通、医疗、建筑等行业用户提供智能化系统工程及服务。《英才》曾对银江股份进行过多次跟踪报道。这家企业最近几年向智慧城市方面做深入发展,涉及领域包括交通、医疗、建筑、环境、能源、教育、金融等城市居民生活的方方面面。

公司是国家规划布局内重点软件企业、国家火炬计划重点高新技术企业、中国软件业务收入前百家企业、浙江省百强高新技术企业、福布斯(Forbes)2010年中国最具潜力中小企业100强、改革开放30年中国信息化建设杰出贡献单位,是国内行业内综合业务资质等级最高且种类最齐全的公司之一。

5、恒生电子

2016年6月1日,金融区块链合作联盟深圳成立,恒生电子是25个发起成员之一运用区块链技术实现基于联盟链的数字票据系统。

『陆』 美国大数据工程师面试攻略有哪些

如果说硅谷成功是有原因的,我觉得有两点。地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国人,印度人,犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题,在Stanford有个说法空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator,各种技术forum,meetup,创业导师,都很活跃。资本的力量功不可没,早年VC通过投资,收购,上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个facebook,下一个musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,就有很多硬件公司的辉煌Intel,Oracle,Apple,Cisco成功上市,10年前,互联网的兴起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千。疯狂的估值背后也改变了世界。我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个。

『柒』 大数据要怎么自学,该不该学!

如果您有java基础,或是一定的工作经验的话,那您自学我是支持的,如果您是版小白,零基础话权,不建议您这样学习的。
大数据要学的东西很杂,学习起来也很有难度,您选择自学大数据,很多的问题都超出您的解决能力范畴,换句话说,您选择自学大数据,那么在学习中有很多您没有办法解决的问题会时不时的冒出,影响你学大数据的信心,也许你是越挫越勇型,但是很多的时候无疑就是在浪费你的时间。
自学大数据很多的时候就是遇到瓶颈,并且出现最多的就是你您每天忙碌日复一日的学大数据,但就是没有相应的成效。而大数据培训则不同,一定是要出效果的,不然你花那么多的培训费用是为了什么呢?大数据培训也深知这一点,一定会想尽办法确认您的学习效果,比如多多增加项目训练、找优秀的大数据培训老师等等途径。

d

『捌』 大数据分析界的“神兽”Apache Kylin有多牛

1.Apache Kylin是什么?

在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)
往往存在很大的局限,如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持;而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析
师只习惯使用SQL,Hadoop难以实现快速交互式查询等等。神兽Apache Kylin就是为了解决这些问题而设计的。

Apache Kylin,中文名麒(shen)麟(shou) 是Hadoop动物园的重要成员。Apache
Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大
规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。

Apache
Kylin于2014年10月在github开源,并很快在2014年11月加入Apache孵化器,于2015年11月正式毕业成为Apache顶级项
目,也成为首个完全由中国团队设计开发的Apache顶级项目。于2016年3月,Apache
Kylin核心开发成员创建了Kyligence公司,力求更好地推动项目和社区的快速发展。

Kyligence是一家专注于大数据分析领域创新的数据科技公司,提供基于Apache
Kylin的企业级智能分析平台及产品,以及可靠、专业、源码级的商业化支持;并推出Apache Kylin开发者培训,颁发全球唯一的Apache
Kylin开发者认证证书。

2.Kylin的基本原理和架构

下面开始聊一聊Kylin的基本原理和架构。简单来说,Kylin的核心思想是预计算,即对多维分析可能用到的度量进行预计算,将计算好的结果保
存成Cube,供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询,这决定了Kylin能够拥有很好的快速查询和高并发能
力。

上图所示就是一个Cube的例子,假设我们有4个dimension,这个Cube中每个节点(称作Cuboid)都是这4个dimension
的不同组合,每个组合定义了一组分析的dimension(如group
by),measure的聚合结果就保存在这每个Cuboid上。查询时根据SQL找到对应的Cuboid,读取measure的值,即可返回。

为了更好的适应大数据环境,Kylin从数据仓库中最常用的Hive中读取源数据,使用
MapRece作为Cube构建的引擎,并把预计算结果保存在HBase中,对外暴露Rest
API/JDBC/ODBC的查询接口。因为Kylin支持标准的ANSI
SQL,所以可以和常用分析工具(如Tableau、Excel等)进行无缝对接。下面是Kylin的架构图。

说到Cube的构建,Kylin提供了一个称作Layer Cubing的算法。简单来说,就是按照dimension数量从大到小的顺序,从Base
Cuboid开始,依次基于上一层Cuboid的结果进行再聚合。每一层的计算都是一个单独的Map Rece任务。如下图所示。

MapRece的计算结果最终保存到HBase中,HBase中每行记录的Rowkey由dimension组成,measure会保存在
column
family中。为了减小存储代价,这里会对dimension和measure进行编码。查询阶段,利用HBase列存储的特性就可以保证Kylin有
良好的快速响应和高并发。

有了这些预计算的结果,当收到用户的SQL请求,Kylin会对SQL做查询计划,并把本该进行的Join、Sum、Count Distinct等操作改写成Cube的查询操作。

Kylin提供了一个原生的Web界面,在这里,用户可以方便的创建和设置Cube、管控Cube构建进度,并提供SQL查询和基本的结果可视化。

根据公开数据显示,Kylin的查询性能不只是针对个别SQL,而是对上万种SQL 的平均表现,生产环境下90%ile查询能够在在3s内返回。在上个月举办的Apache Kylin

Meetup中,来自美团、京东、网络等互联网公司分享了他们的使用情况。例如,在京东云海的案例中,单个Cube最大有8个维度,最大数据条数4亿,最
大存储空间800G,30个Cube共占存储空间4T左右。查询性能上,当QPS在50左右,所有查询平均在200ms以内,当QPS在200左右,平均
响应时间在1s以内。

北京移动也在meetup上展示了Kylin在电信运营商的应用案例,从数据上看,Kylin能够在比Hive/SparkSQL在更弱的硬件配置下获得更好的查询性能。 目前,有越来越多的国内外公司将Kylin作为大数据生产环境中的重要组件,如ebay、银联、网络、中国移动等。大家如果想了解更多社区的案例和动态,可以登录Apache Kylin官网或Kyligence博客进行查看。

3.Kylin的最新特性

Kylin的最新版本1.5.x引入了不少让人期待的新功能,可扩展架构将Kylin的三大依赖(数据源、Cube引擎、存储引
擎)彻底解耦。Kylin将不再直接依赖于Hadoop/HBase/Hive,而是把Kylin作为一个可扩展的平台暴露抽象接口,具体的实现以插件的
方式指定所用的数据源、引擎和存储。

开发者和用户可以通过定制开发,将Kylin接入除Hadoop/HBase/Hive以外的大数据系统,比如用Kafka代替Hive作数据源,用
Spark代替MapRece做计算引擎,用Cassandra代替HBase做存储,都将变得更为简单。这也保证了Kylin可以随平台技术一起演
进,紧跟技术潮流。

在Kylin
1.5.x中还对HBase存储结构进行了调整,将大的Cuboid分片存储,将线性扫描改良为并行扫描。基于上万查询进行了测试对比结果显示,分片的存
储结构能够极大提速原本较慢的查询5-10倍,但对原本较快的查询提速不明显,综合起来平均提速为2倍左右。

除此之外,1.5.x还引入了Fast
cubing算法,利用Mapper端计算先完成大部分聚合,再将聚合后的结果交给Recer,从而降低对网络瓶颈的压力。对500多个Cube任务
的实验显示,引入Fast cubing后,总体的Cube构建任务提速1.5倍。

目前,社区正在着手准备Apache Kylin 1.5.2版本的发布,目前正处于Apache Mailing list投票阶段,预计将会在本周在Kylin官网发布正式下载。

在本次的1.5.2版本中,Kylin带来了总计
36个缺陷修复、33个功能改进、6个新功能。一些主要的功能改进包括对HyperLogLog计算效率的提升、在Cube构建时对Convert
data to hfile步骤的提速、UI上对功能提示的体验优化、支持hive view作为lookup表等等。

另一个新消息是Kylin将支持MapR和CDH的Hadoop发行版,具体信息可见KYLIN-1515和KYLIN-1672。相应的测试版本是MapR5.1和CDH5.7。

UI上提供了一个重要更新,即允许用户在Cube级别进行自定义配置,以覆盖kylin.properties中的全局配置。如在cube中定义kylin.hbase.region.count.max 可以设置该cube在hbase中region切分的最大数量。


一个重要的功能是Diagnosis。用户经常会遇到一些棘手的问题,例如Cube构建任务失败、SQL查询失败,或Cube构建时间过长、SQL查询时
间过长等。但由于运维人员对Kylin系统了解不深,很难快速定位到root cause所在地。我们在mailing
list里也经常看到很多用户求助,由于不能提供足够充分的信息,社区也很难给出一针见血的建议。

当用户遇到查询、Cube/Model管理的问题,单击System页面的Diagnosis按钮,系统会自动抓取当前Project相关的信息并打包成
zip文件下载到用户本地。这个包会包含相关的Metadata、日志、HBase配置等。当用户需要在mailing
list求助,也可以附上这个包。

阅读全文

与南京大数据meetup相关的资料

热点内容
苹果手机能看的网站有哪些 浏览:756
u盘格式化存储更大文件 浏览:307
电脑网线未识别的网络连接电脑 浏览:101
岛国电影网址 浏览:735
linux互传文件 浏览:603
谷歌商店微信支付宝 浏览:965
一级动物和人电影有哪些 浏览:611
十部顶级原始部落电影 浏览:210
win10按键精灵连不上手机助手 浏览:586
东莞市经济数据是多少 浏览:910
编程会运用到哪些程序 浏览:662
游戏在c盘中哪个文件夹 浏览:53
三不直接分管出自哪个文件 浏览:426
公司网站在哪个时间设置比较好 浏览:539
linux安装后没网卡 浏览:275
提示空文件夹 浏览:906
家电清洗类app哪个好 浏览:334
尺度电影网址 浏览:389
dw悬浮窗口代码 浏览:184
乳大电影 浏览:975

友情链接