导航:首页 > 网络数据 > 大数据障碍

大数据障碍

发布时间:2021-04-21 12:24:15

A. 什么将阻碍大数据时代的数据治理

这件事情政府方面肯定还没有办法表态,我国目前还缺少数据资产归属权、使用权的立法。没有界定网络上公开的商品价格数据,是属于淘宝的呢,还是其他“看到”的公司都有权利分享。从大数据的本质来看,大数据时代应该秉承开放、分享的精神,才能充分发展大数据的巨大价值。这些价值不仅仅限于商业,而是涉及社会和经济运行的方方面面。我认为三个问题阻碍了数据的治理:数据割据、数据孤岛和数据质量(在我尚未出版的新书《大数据时代的历史机遇》中有更详尽的描述)。因为制度、地方主义、部门主义等人为因素造成数据分散的现象,就称之为“数据割据”。因为技术差距、历史遗留问题等形成的数据分散的现象,称之为“数据孤岛”。数据质量的好坏,直接影响数据资产的价值。数据质量主要包括数据的真实性、完整性、一致性。数据质量的解决非一日之功,需要技术、制度、文化等等方方面面的努力。数据割据现象更多存在于国家各部门、各地方之间;大型企业也会造成数据割据现象。数据割据明显违背大数据时代精神。淘宝这个行为无疑加剧了数据割据现象,无助于聚合更大规模的数据,产生更具社会、经济意义的应用。中国的互联网经济刚刚开始,在搜索、电子商务、娱乐、通信等领域展现勃勃生机。像网络、淘宝、腾讯等公司在日积月累的经营中,积累了大量的数据,无疑是他们的宝贵资产。他们利用这些数据,开发新的商业模式和服务类型,是社会之福。但是如果他们滥用先发优势,加剧的数据割据现象,并危害到创新型企业的成长,这将是产业之悲,经济之殇。大数据时代才刚刚拉开序幕,发生淘宝和八度之争,个人认为是好事。

B. 大数据到底改变了什么又阻碍了什么呢

大数据到底改变了什么?又阻碍了什么呢
大数据时代,我们每个人的生活甚至任何的机构团体、商业组织都会或多或少的受到大数据的影响,那么大数据到底改变了什么?又阻碍了什么呢?
当你生活的喜怒哀乐与微博结下不解之缘时,当Facebook的市值是它公司资产的数十倍时,当你在线购物习惯于看产品的评价时,蓦然回首,大数据时代已经悄然而至,在未来,不管你愿不愿意与大数据发生任何关系,它都在那里。
不但小孩子,似乎每个人都喜欢探索隐藏于事情表面之后的根本原因,像是一种征服后的满足。我们习惯了知道了为什么,才这样做,同样我们认知某个问题时,总是先做出假设然后努力实验来验证我们的假想。比如,我们在商店上货时,如果我们不确切的知道男人回家的时候在卖啤酒的同时不忘老婆的嘱咐给孩子买尿布,我们就不会不可思议的把尿布摆在啤酒旁边。但是,在大数据时代,数据主宰着事实的真像,在我们对账单进行数据关联分析时,如果很大部分顾客的账单上同时出现了啤酒和尿布,我们就会这样做,而不是挖空心思去了解为什么?所以,在大数据时代,我们不在必要弄清楚为什么?我们所需要做的是通过分析关联的数据,弄清楚事物间的联系,用数据指引着我们作出决策,而不必去花费大量的时间去探寻事物背后繁芜复杂的因果关系。
在大数据的时代,所有的数据将都是样本,随着科技的发展,我们有足够存储资源来存储所有的数据,我们有逐渐成熟的技术来分析这些数据间的关系。这样所作出的分析不但准确而且更全面,更有信服力。还记得IBM的“深蓝”战胜了国际象棋世界冠军吗?这就是大数据的不可战胜,试想当棋盘上有一定量的棋子时,计算机就能枚举出所有的情形,直到你输为止,因为计算机以数据的形式存储了所有在棋盘上每走一步后的所有可能结果。这便是大数据带来的改变,如果说在大数据出现以前,算法是唯一可以与人类媲美的艺术,那么大数据出现之后,算法在其面前只能望其项背。同样,以往专家的字眼会让我们觉得多少有点崇拜的光环,但是大数据时代,专家的概念将会得到弱化。IBM正在训练其医疗机器人,这些机器人的学习能力犹如孙悟空可以将书本吞下一样强。通过现代医疗检测机器的检查,人体的各项生理数据传入机器人分析系统,当然他们的能力媲美相当一部分的医生,更重要的是他们不会失误,而是帮助专家在诊断失误时给出提醒。
大数据改变了很多,但它总有它不利的一面。如果对于普通的人来说大数据是促进,那么对乔布斯一样的人来说,我想就是阻碍了。乔布斯坚定的认为普通的消费者根本不知道他们所渴望的产品的样子,所以他才能做出iPhone那样超出人们想象那样的产品。然而,大数据所能做的可能就是事先洞察消费者的期望。所以当人们对大数据足够依赖时,人们会沉醉于发现存在的未知和期待已知的现在,阻碍突破式的创新发展。

C. 如何看待大数据基因的问题

21世纪初,人类基因组计划(HGP)发布了第一张人类基因草图,人的基因组约有30亿个碱基对,意味着每一个人的基因组有3Gb以上的数据。该计划曾与上世纪的曼哈顿计划(原子弹制造)、阿波罗登月计划并称为三大科学计划,为本世纪的一个里程碑式的科学工程。
15年过去了,基因组测序技术发展之快已经超乎人们的想象。十年前,这项技术还只是实验室中一个“迷人”但又昂贵的研究工具。现在,它却已经渐渐步入医疗界,成为一种略显“尖端”的诊断技术。该技术也引领生物医学领域进入大数据时代。
早前,曾有人预言,当个人基因组测序费用下降到1000美元时,就标志着我们的医学将进入个体化医疗(Personalized Medicine)的时代。现在,这个目标已基本达到,随着这项技术的迅猛发展和成本的扁平化,它已经开始给我们带来了庞大的数据,包括基因组、蛋白组等各类组学(omics)的出现,也带来了不少数据。
1. 海量数据的产生
刚过去的七八年间,我们储存的个人基因组数据量已达到106规模,这个数量如此惊人,且这只是刚刚开始。每年Illumina公司的HiSeq X 10测序仪已经可以完成超过18000人的基因组测序工作,该测序系统已分布在全球顶尖测序中心,每天产生大量的数据。英国2014年也启动了“十万人基因组计划”,美国和中国则宣布要完成多达一百万人的基因组数据收集工作。
基因测序数据正在以更快的速度翻倍。2015年以后,以历史累积的测序数据来看,每7个月就能翻一番, Illumina仪器测序所得的数据,每12个月就能翻一番;如果仅以摩尔定律来看,每18个月数据量就能翻一番。这种情况将带来一个巨大的“数据黑洞”。图片来自nature.com
以上所提及的,只是大数据时代下的一个缩影,现在面临的还有其他数据。比如,伴随基因组计划的发展,人类蛋白组计划和基因测序结果在医疗界的应用等也被逐步提出,它们也正在给大数据“添砖加瓦”。所谓人类蛋白组计划,主要目的在于研究所有人类基因编码产生的蛋白质。关于这个,我们来看一个研究者的故事。
美国斯坦福大学迈克尔?斯奈德(Michael Snyder)。
迈克尔·斯奈德(Michael Snyder)是美国斯坦福大学的一名分子遗传学家。当他抱着好奇的心态测了自己的基因组后,得到了一些“惊喜”。他发现,自己是一名II型糖尿病易感基因的携带者,尽管在这之前,他并没在自己身上发现任何此类疾病的风险因素,包括肥胖、家族病史等等。在接下来的14个月,斯奈德持续监控了自己体内相应RNA的活性和蛋白表达情况。在一次感染呼吸道病毒后,他发现自己体内的蛋白表达发生了变化,并且有相应的生物学通路被激活。接着,他被诊断出了糖尿病。看起来,这场病就是由这次病毒感染所触发的。此后,他还在患上莱姆关节炎时,也监控了自己体内的蛋白表达变化。这时,他的研究已经产生了多达50Gb的数据,这还仅仅只是关于他个人的研究数据。当他将这项研究扩展至100个人时,并将研究目标扩展至13类“组学”(包括蛋白组、肠道菌群的转录组等等),而实际上,按照他的计划,要想真正做到预测疾病,还需要将研究对象增加至上百万个病人。如此这样,它将会带来多大的数据量?
各种电子设备的普及以及健康数据记录App的出现,给这个时代带来了海量的数据,也给医学界带来了可观的研究对象。过去的几十年间,医生如果要观察病人的心血管健康情况,往往会给他们做这么一个小测试:让他们在一段平缓、稳固的路上行走6分钟,并记录他们的行走距离。这个测试不仅可用于预测肺移植者的存活率,还可用于检测肌肉萎缩的病程发展,甚至可以评估心血管患者的健康状况。这种小测试已被运用于多项医疗研究中,但在过去,最大规模的医疗研究项目中,这种参与者也很少能达到一千人。
智能手机中健康类App的出现,从而能让研究者获取大量人群的数据。图片来自nature.com
不过,这个情况近年来发生了很大的变化。在2015年3月进行的一项心血管研究中,研究者尤安·阿什利(Euan Ashley)在两周时间内就拿到了6000个人的测试结果,这就得益于现在有数百万计的人拥有智能手机和健身追踪器。到了6月份,参与到这项研究中的人数达到了40000人,这仅仅依靠的是一款叫做“我的心脏计数”(My Health Counts,见上图)的苹果应用。有了这个应用软件,阿什利甚至可以招募来自全球的参与者,获取他们的测试结果。那样的话,他得到的数据又将是多少?面对这个现状,不少研究者表示,这些海量数据可能会淹没现有的分析渠道,并对数据存储提出前所未有的“高”要求。
2. “大数据”时代下的挑战
在群体基因组研究的浪潮下,虽然更多的人关注的仅仅只是整个基因组中的外显子部分,即基因组中可编码产生蛋白的部分,它占到了整个基因组的1-5%,这能够将需要分析的数据量减少到原来的1%。但即使在这种情况下,每年产出的数据量仍可达4000万Gb。这就带来了第一个难题,如何存储这么大的数据量?
尽管这还只是这个领域最基本的问题,仍需要巨大的资源来解决。这就是近年来网络上最常出现的一个词——云(Cloud)出现的契机所在。这么大的数据量,必然无法仅仅保存在固定的设备上,需要借助互联网来实现,也即是所谓的“云存储”。此外,这些数据带来的处理危机也是巨大的,电脑处理能力也将局限着它们的应用。这个问题的初步解决依然要依靠“云”,也就是现在所谓的“云计算”。
即使处理好了海量数据的存储问题,我们还将迎来另一个更让人头痛的问题——这些数据说明了什么?现在关于基因组学的临床研究,往往聚焦于识别个人基因组中可扰乱基因功能的“小错误”,即所谓单核苷酸突变(single-nucleotide variants, SNPs),即使这些突变往往存在于仅占基因组1%的外显子区域,平均下来,依然有近13000个之多,而其中的2%已被预知可影响相应蛋白的变化,但要从中找出某类疾病的具体致病基因,仍是一个巨大的挑战。
自奥巴马提出了“精准医学”的概念,这个方向就一路红火。即使现在已经有了测序技术和分析工具这些手段,有了电子健康记录这位“好帮手”,这种医疗方法的理想和现实之间仍然有着巨大的鸿沟。在这个领域,仍然存在多种障碍。比如,即使在电子健康记录普及和新疗法研发成功的前提下,想要依靠临床医生来实现这些疗法,往往还需要对他们进行不间断的培训,以帮助他们在做医学决定前了解足够多的细节信息。
此外,电子健康记录的不可共享性(即涉及到病人隐私的问题),为精准医疗的实现设置了不小的障碍。很多时候,治疗患者个体病例的特异性信息往往被患者个人和治疗机构所把持,到不了研究者手里,那么就无法据此信息来改进一些治疗方法,因此也就没办法实现对个人的“个体化医疗”。这些问题往往反映生物医学领域需要信息处理专家的介入和帮助。遗憾的是,生物信息学家在学术领域也仅仅只占很少的席位,更别提在医学领域,还需要给他们提供更多的职位和机会。
3. “大数据”带来的机遇
有挑战也必然会带来机遇,这个机遇可以体现在生物医学领域的多个方面,比如医疗界的诊断方法更新、疾病分型更新、医药界药物开发新方向、医学界疾病治疗新方法,甚至生物学科基础研究领域的新工具等等。
2013年,安吉丽娜·朱莉的故事轰动全球,为减少患上乳腺癌的风险,她进行了预防性的双乳腺切除术,而这个决定是在她检测到自身携带一种风险基因——BRCA基因后才做出的。这类基因能带来显著的致病风险,约有55-65%的乳腺癌患者携带有害的BRCA1基因突变,45%的携带BRCA2突变。对朱莉来说,虽然她携带的仅仅是前一个基因,已足以让她做出预防性手术的决定。这个故事给出了一个鲜活的例子,就是如何把个体测序得到的数据与临床诊断联系在一起,这就好像人类正在从自己的基因组中找到这些失落的宝藏,从而帮助自己预防一些恶性疾病,但这只是这个时代所带来的一个福利而已,并且只占到很少的一部分。
以糖尿病为例,不精确的疾病分型,对于前期的预防和后期的治疗都十分不利。之前,医学界已经知道,有多达百余种途径可能导致糖尿病的发生,涉及到胰腺、肝脏、肌肉、大脑甚至脂肪的不同变化。现代通过基因的研究发现,对不同类型糖尿病而言,其致病基因十分多样。这时,如果将这些不同亚型的糖尿病混为一谈,就会让人很难弄明白,为什么携带同样的基因突变,病人在面对同一治疗方案时,会出现完全不同的治疗效果。
正如生物化学家阿兰·阿蒂(Alan Attie)所说的那样,“从致病基因到体重、血糖水平等表型的出现这一过程,往往有许多步,其中每一步都可能发生基因突变,这最终会削弱基因和表型之间的联系”。因此,只看表型(即临床症状)和只看突变基因,得到的都只会是片面的结果。只有将两者有机结合起来,才能更加深我们对疾病的了解,做到更精确地进行疾病分型,以便更容易“对症下药”。
美国国立卫生研究院(NIH)曾发起一项大型项目,构建了癌症基因组数据库(the Cancer Genome Altas,简称TCGA),将所有癌症相关基因突变分类保存,共保存有250万Gb的数据,这大大改进了研究者对各种类型癌症的认识。但仅仅这样,对于提供了组织样本的患者来说,并没给他们的临床经历带来太多改变。
与癌症治疗相关的另一方面,是个人电子健康记录及其病例的特异性信息。对很多研究者来说,如果能从医院或个人手中得到这部分信息,就能够卓有成效地进行癌症治疗方案的改进。总体而言,只有在拿到测序大数据的基础上,同时掌握病人的干预记录(来自个人的电子健康记录)和临床特征(来自医疗机构的临床病理记录),才能最终做到“升级”肿瘤的临床治疗方案。
医药研发也能从大数据获益良多,这无可厚非。在医药研发的世界里,基因技术公司更倾向于进行长期的生物学研究,并将其联系到临床数据上,以使得药物能够“对症下药”到每个人身上,甚至会帮助制药公司做出更“大胆”的研发决定,进行个性化定制免疫疗法的研究。
以微生物菌群研究为例。现在就有人提出这样的想法:什么时候我们会想要研发出能改变体内微生物菌群的药物呢?这些存在于我们肠道、皮肤表面和环境中的数以十亿计的微生物,不仅影响我们是否患病,还会影响到药物对疾病所产生的药效。现在大部分对于微生物菌群研究得到的数据还只是针对小部分人群,但这是否也意味着一个不错的研究方向?毕竟我们现在还缺乏一些稳定的测试手段,能让我们以一种持续性的方法来改变微生物菌群,并对疾病发展产生有意义的影响。
对免疫学研究来说,大数据会带来什么?首先,有以下“组学”都可以对免疫学研究产生有利影响,包括:基因组、微生物组、表观基因组、转录组、代谢组、通路组、细胞组和蛋白组。具体来说,比如对特定B细胞或T细胞所有抗体抗原分子的分析,这些分析结果(尤其是与能识别对应抗体的抗原决定簇的技术相结合),可将临床诊断、抗体药物研发、疫苗研发上升到一个新高度,并能为自身抗原肽结合抗体提供新见解。
伴随着荆棘的引路,往往也会引来好歌喉的夜莺。大数据给我们带来挑战的同时,也带来了机遇,尤其是对于一些恶性疾病(比如癌症)的治疗。一种单一类型的肿瘤,往往就会伴随着多样化的基因突变,但随着投入更多的时间和金钱,会得到更多的治疗靶点。当大数据分析的精度越来越高时,对于整个疾病发生过程的了解也会越来越深入,有了“大数据分析”这项利器,更多的精准治疗方案将会产生,帮助人们做出更好的选择。

D. 大数据分析是什么优缺点是什么大数据的优缺点

数据分析是指抄用适当的袭统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
大数据分析的优点:能够准备得出可靠信息,有助于企业发展,已经找到自己的方向;
缺点:信息透明化,大数据比你更了解你自己。
大数据优点:
(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。

(3)分析所有SKU,以利润最大化为目标来定价和清理库存。

(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
(5)从大量客户中快速识别出金牌客户。
(6)使用点击流分析和数据挖掘来规避欺诈行为。
大数据的缺陷:
当前,大部分中国企业在数据基础系统架构和数据分析方面都面临着诸多挑战。根据产业信息网调查,目前国内大部分企业的系统架构在应对大量数据时均有扩展性差、资源利用率低、应用部署复杂、运营成本高和高能耗等缺陷。

E. 如何进行大数据分析及处理

探码科技大数据分析及处理过程


聚云化雨的处理方式

F. 企业在大数据领域面临的障碍要怎么克服

乐思软件整理:虽然大数据在很长一段时间备受企业青睐,但事实上,根据Square Root的数据显示,只有40%的公司在真正意义上使用它。多年来,企业在大数据领域都面临一些障碍,以下是四个主要障碍:

改变微弱且滞后

企业利用大数据来提高生产力并不是一蹴而就的,相反,我们可以把它视为企业基础设施的根本架构,这就意味着在很短的时间内,大数据是不容易被替代的。尽管新兴企业能够很好地接受这一事实,但很多业界耕耘数年的传统企业却不得不开始重塑自己的大数据兼容性。

这是一个相对艰难的过程,一些成熟的企业正在试图采取一些措施来适应不断发展变化的外部环境。在实践中,评估哪些业务可以从大数据中受益,哪些可以让受众和生产力互动发生变化等。

专家供不应求

大数据的新实践在不断证实,工具已经与技能的发展没有太大的关系,并呼吁新一批数据专家来部署一些新的策略。然而,刚毕业的大学生由于大学基础知识无法与实践相融合,致使想要充分利用大数据的企业不得不接受行业内专家较高的成本需求,同时,竞争也是相对激烈的,但是很有必要。

企业不确定是否需要大数据的支持

不幸的是,很多企业正在以一种渴求的心态来利用大数据,但是如果你在不知道想要解决什么问题的情况下获取大数据,这将会是无用的。

然而,企业想要尽快获取最有价值的大数据,必须要合理分配时间,仔细研究实际需要完成的任务,一般涉及从开发融合系统到数据实践操作等。如果信息存在差距,大数据就会起到很重要的引导作用,你能在这个时候抓住关键,就能让大数据为自己服务。

追求速率,造成数据冗余

如果把大数据想象成一堆干草,那么,企业获益的数据就是其中一种特定的干草,正确使用大数据就是从一堆干草中寻求正确的干草类型,并进行提取。但是,很多企业没有意识到这一点,总是认为所有的干草都是有价值的、正确的,因此,企业常常使用太多的数据源、数据收集方法,并且投入太多的数据请求,这样就会造成数据冗余,没有一个是精确的或是可操作的,混乱和错误也会进一步阻碍有益数据的发展。

为此,企业需要改进其使用大数据的方式,不宜太过追求数量,而忽视正确数据的价值。

G. 大数据在医疗行业的应用面临的挑战有哪些方面

1、数据质量
目前医疗数据的来源主要为医疗机构(例如、医学药学实验室、医疗版康复中心等)和互联网。权采集的数据范 围广、维度高、类型种类繁多且不针对 特定的问题。
2、不确定性的度量问题
目前比较成熟且进入实用阶段的大数 据模型多数都是面向药厂和保险公司的。美国的医疗大数据应用中,面向医生和患 者业务通常较难,很难找到合适的切入点。面向企业的业务相对容易,尤其是针对保 险公司和药厂,而则相对难一些。由于大数据模型精度有限,在安全性要求极 高的和医生中其实用价值非常有限,例如,一个95%准确度的模型对医生来说可能仍然不够精确,因为医生在决策时是针对患者个体的,而不是基于统计意义的。
另外,统计学习模型的可解释性也较差,往往只有统计学家和计算机科学家才能精确完整地解释模型,而对于模型真正的使用者如医生和政府官员等存在巨大的障碍。

H. 请分析大数据在医疗行业的应用中面临的挑战有哪些方面

1、数据质量
目前医疗数据的来源主要为医疗机构(例如医院、医学药学内实验室、医疗康容复中心等)和互联网。采集的数据范 围广、维度高、类型种类繁多且不针对 特定的问题。
2、不确定性的度量问题
目前比较成熟且进入实用阶段的大数 据模型多数都是面向药厂和保险公司的。美国的医疗大数据应用中,面向医生和患 者业务通常较难,很难找到合适的切入点。面向企业的业务相对容易,尤其是针对保 险公司和药厂,而医院则相对难一些。由于大数据模型精度有限,在安全性要求极 高的医院和医生中其实用价值非常有限,例如,一个95%准确度的模型对医生来说可能仍然不够精确,因为医生在决策时是针对患者个体的,而不是基于统计意义的。
另外,统计学习模型的可解释性也较差,往往只有统计学家和计算机科学家才能精确完整地解释模型,而对于模型真正的使用者如医生和政府官员等存在巨大的障碍。

I. 大数据可否支持智慧城市健康发展面临阻碍

智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。随着人类社会的不断发展,未来城市将承载越来越多的人口。目前,我国正处于城镇化加速发展的时期,部分地区“城市病”问题日益严峻。为解决城市发展难题,实现城市可持续发展,建设智慧城市已成为当今世界城市发展不可逆转的历史潮流。

“一号一窗一网”背后也是政府各部门打通信息,建立统一数据共享交换平台和政务服务信息系统,并实现集中与整合带来的服务。

数据打通共享,确实是推动智慧城市落地的一个实实在在的举措。虽然现在各种办事信息都电子化了,但老百姓并不觉得省事。我们统计过,郑州600个审批事项,需要提交的材料有5000多种,其中多次重复使用的证照,个人的有10多种,法人的也10多种。如果把这些证照的数据共享起来,减少老百姓重复递交、重复录入,那老百姓就感到落地了。

不过,从全国范围看,在建设了城市的云平台后,如何把数据从各部门拿上来打通共享,是智慧城市建设中一件相当困难的事。为什么数据打通如此之难呢?这有历史原因。多年来,政府已经以部门为主导,像“十二金”工程,构建了从上到下的垂直系统。如何打破“部门墙”,实现这些垂直系统的对接,将是一项长期工作。

智慧城市经常与数字城市、感知城市、无线城市、智能城市、生态城市、低碳城市等区域发展概念相交叉,甚至与电子政务、智能交通、智能电网等行业信息化概念发生混杂。对智慧城市概念的解读也经常各有侧重,有的观点认为关键在于技术应用,有的观点认为关键在于网络建设,有的观点认为关键在人的参与,有的观点认为关键在于智慧效果,一些城市信息化建设的先行城市则强调以人为本和可持续创新。总之,智慧不仅仅是智能。智慧城市绝不仅仅是智能城市的另外一个说法,或者说是信息技术的智能化应用,还包括人的智慧参与、以人为本、可持续发展等内涵。
金鹏信息智慧城市解决方案

J. 大数据应用模式及安全风险分析有哪些

当前各个领域数据生成速度逐渐加快,需要处理的数据量急剧膨胀。这些巨大的数据资源蕴藏着潜在的价值,需要对其进行有效的分析和利用。当前数据的特点除了数量庞大之外,数据类型也变得多样化,其中包括了结构化数据、半结构化数据以及非结构化数据。这些数量庞大、种类繁多的海量数据,给传统分析工具带来了巨大的挑战。当前对数据的分析不再是简单的生成统计报表,而是利用复杂的分析模型进行深人的分析,传统分析技术例如关系数据库技术已经不能满足其要求。在扩展性上,通过增加或更换内存、CPU、硬盘等设备原件以打一展单个节点的能力的纵向打一展(scale up)系统遇到了瓶颈;只有通过增加计算节点,连接成大规模集群,进行分布式并行计算和管理的横向打一展(scale out )系统才能满足大数据的分析需求[u。因此传统工具在扩展性上遇到了障碍,必须寻求可靠的数据存储和分析技术来分析和利用这些庞大的资源。利用云计算平台搭建Hadoop计算框架成为当前处理大数据的主要手段。然而由于云计算和Hadoop应用的特点和自身安全机制薄弱,不可避免地带来了安全风险。
1、大数据应用模式
云计算(Cloud Computing)是一种基于Internet的计算,是以并行计算(Parallel Computing )、分布式计算(Distributed Computing)和网格计算(Grid Compu-tin助为基础,融合了网络存储、虚拟化、负载均衡等技术的新兴产物。它将原本需要由个人计算机和私有数据中心执行的任务转移给具备专业存储和计算技术的大型计算中心来完成,实现了计算机软件、硬件等计算资源的充分共享[z}。企业或个人不再需要花费大量的费用在基础设施的购买上,更不需要花费精力对软硬件进行安装、配置和维护,这些都将由云计算服务商CSP( Cloud Service Provider)提供相应的服务。企业或个人只需按照计时或计量的方式支付租赁的计算资源。云计算服务商拥有大数据存储能力和计算资源,被视为外包信息服务的最佳选择[31因此大数据的应用往往与云计算相结合。
Hadoop是当前最广为人知的大数据技术实施方案,它是Google云计算中的Map/Rece}4}和GFS( Google File System)的开源实现。Hadoop提供了一种计算框架,其最为核心的技术是HDFS ( HadoopDistributed File System)以及MapReee } HDFS提供了高吞吐量的分布式文件系统,而MapReee是大型数据的分布式处理模型。Hadoop为大数据提供了一个可靠的共享存储和分析系统[5-6 }v
尽管有一些组织自建集群来运行Hadoop,但是仍有许多组织选择在租赁硬件所搭建的云端运行Hadoop或提供Hadoop服务。例如提供在公有或私有云端运行Hadoop的Cloudera,还有由Amazon提供的称为Elastic MapReee的云服务等f}l。因此将云计算与Hadoop结合处理大数据已成为一种趋势。
2、大数据安全风险分析
随着大数据应用范围越来越广,对数据安全的需求也越来越迫切。
由于云计算的特点是将数据外包给云服务商提供服务,这种服务模式将数据的所有权转移给了CSP,用户失去了对物理资源的直接控制[A1。而云中存储的大数据通常是以明文的方式存在的,CSP对数据具有底层控制权,恶意的CSP有可能在用户不知情的情况下窃取用户数据,而云计算平台亦可能受到攻击致使安全机制失效或被非法控制从而导致非授权人读取数据,给大数据安全带来了威胁。
Hadoop在设计之初并未考虑过安全问题,在Ha-doop 1. 0. 0和Cloudera CDH3版本之后,Hadoop加人了Kerberos的身份认证机制和基于ACL的访问控制机制[91。即使在安全方面增加了身份认证和访问控制策略,Hadoop的安全机制仍然非常薄弱,因为Ker-beros的认证机制只应用于客户机(Clients )、密钥分发中心(I}ey Distribution Center, I}DC )、服务器(Serv-er)之间,只是针对机器级别的安全认证,并未对Ha-doop应用平台本身进行认证[}o}。而基于ACL的访问控制策略需要通过在启用ACL之后,对hadoop-policy. xml中的属性进行配置,其中包括9条属性,它们限制了用户与组成员对Hadoop中资源的访问以及Datanode和Namenode或Jobtracke:和Tasktrackers等节点间的通信,但该机制依赖于管理员对其的配置[川,这种基于传统的访问控制列表容易在服务器端被篡改而不易察觉。而且基于ACL的访问控制策略粒度过粗,不能在MapRece过程中以细粒度的方式保护用户隐私字段。况且针对不同的用户和不同应用,访问控制列表需要经常作对应的更改,这样的操作过于繁琐且不易维护。因此Hadoop自身的安全机制是不完善的。
2.1 不同应用模式下CSP及Uers带来的安全风险
云计算中Hadoop有多种应用模式。在私有云中搭建Hadoop,即企业自己应用Hadoop,使用该平台的是企业内部各个部门的员工,外部人员无法访问和使用这些资源。这时的CSP指的是Hadoop的创建和管理者,IaaS级和PaaS级CSP为相同的实体;在公有云平台应用Hadoop , C SP有2级,IaaS级CSP,提供基础设施;PaaS级C SP,负责Hadoop的搭建和管理。这时两级CSP往往是不同的实体。

阅读全文

与大数据障碍相关的资料

热点内容
国外大数据广告 浏览:775
win10微信声音怎么设置在哪里 浏览:177
计算机程序设计技术水平java 浏览:255
uml统一建模实用教程课后答案 浏览:947
3d建筑建模视频教程 浏览:774
途歌app官网下载 浏览:936
数据库保存相对路径 浏览:493
小白ppt演示控制工具 浏览:244
qq公众号更换管理员 浏览:275
js怎么替换特殊符号 浏览:791
旋转扭曲工具coredraw 浏览:467
网络继电器控制开关图 浏览:735
南宁公交app下载软件 浏览:742
企业大数据服务平台 浏览:10
ps做iphone 浏览:258
大数据思维与决策txt 浏览:56
tchartjava 浏览:589
苹果破解无线网密码的软件 浏览:299
mac系统占越来越大 浏览:201
word缓存文件恢复 浏览:799