导航:首页 > 网络数据 > 大数据灾难

大数据灾难

发布时间:2022-09-19 04:27:51

大数据时代,人类生活面临颠覆

大数据时代,人类生活面临颠覆

对于IT领域来说,最近有很多非常新的概念,比如云计算、物联网,当大家刚刚对这些概念开始有清晰的认知时,又一个全新概念出现了——大数据。什么是大数据?大数据概念究竟指向何方,大数据背后能怎样改变我们生活?会不会给我们的生活和工作带来困扰?

本报与第一财经头脑风暴节目合作探讨大数据时代下的问题。参与这次讨论的嘉宾有大数据概念的提出者、牛津大学教授维克托·迈尔·舍恩伯格,微软亚太研发集团、云计算操作系统首席架构师徐明强,上海市信息化专家、专业委员会专家、复旦大学计算机学院院长王晓阳,科尔尼管理咨询全球合伙人孙健,复旦大学现代哲学研究所所长俞吾金,启明创投合伙人童士豪,著名财经评论员石述思。

1 到底什么是大数据?

维克托:我认为它就是新黄金,我觉得是21世纪最主要的资源,这种资源对社会、企业、个人是否能成功,还是会受苦受难有着很重要的作用。解释一下,虽然此前我们都有数据,可把它们整理在一起然后分析是非常昂贵的,因此我们更多的注意力都放在了实体资源上,就是真正的黄金、金块,像劳动力这种资源。但只有最近我们才靠人的知识、创新来创造财富,更靠前一步,我们可以根据数据来进行,因为数据收集以及分析,成本上升的程度都已经改变了,然后我们的数据就可以达到一定规模。最后,大家所寻求的不管你是一个人、一个公司、一个组织,还是这个社会,无外乎就是这种所谓的新黄金。

为什么最近黄金的价值会跌得很厉害?因为老黄金不值钱了,没有新黄金有价值。

童士豪:我的观点有点类似,第一个是云,第二个是关系,第三个是未来。像刚才维克托先生提到的,因为云时代到了,储存的大量数据的成本非常低,所以能让大家去利用大数据做工作分析,最近由于很多事情的关系,有更多的关系被理解,所以能去预测未来状况。用自己的话说,就是在聆听上花很多时间,看了很多朋友,大家寻找工作机会也好或者是认识对工作有帮助的合作伙伴也好,在这么大的信息里,这么多人把他自己的信息放在上面,就是做了一件事,就是分析。如果你40岁想当创意公司的CEO,你现在20岁,未来20年该怎么规划?这就是非常有意思的一件事。

最后可能有不同的可能性,最后会不会给你找到一个最好的方法,那是自己决定的。可能性放在面前,是机会率最高的,怎么选还是个人决定,所以大数据并没有抹杀个人的意识。

石述思:大数据首先改变的是我们看待世界的方法,它会对这个时代的很多的价值观产生剧烈冲击。举例来说,因为过去我们东方人特别喜欢一个词叫因果,我们认为善有善报、恶有恶报,其实根据交管部门调查的数据,在街头遭遇横祸的人其实跟道德无关,秦桧的寿命是岳飞的两倍半,很多贪官在发现之前,那过的确实是令人无限羡慕的生活。因此,通过大数据我们能用一种全新的观念来看待这个世界,这个世界是有关联来建构的一个新型的关系,只有科技发展到一定水平,才能达到这样的高度。

与此同时,在大数据时代,我们该恪守的底线还是要恪守,但它的确在告诉我们真相,因为科学就是在告诉我们真相。我有一个愿望,就是刚才讲的大数据是新的黄金,我希望它更多地用于社会公益事业,比如,去挽救地震局。这样能避免很多人道主义的灾难和财产的损失,结论是我们过去认为上帝是哲学家或者叫哲人,现在发现他老人家是个老顽童。

2 大数据究竟有没有对各领域的工作和生活产生影响?

王晓阳:大数据影响了智慧。怎么理解呢?大数据本身的概念是数据采集和处理,到了一定的程度使我们的社会也好,管理者也好,都能获益——从城市来讲,一个管理者可以聚集这些数据和处理方式,使得我们能用智慧来管理城市,可以从交通管理、公共卫生,还有其他各个方面来管理,这管理是需要数据,数据产生了智慧,然后反过头来能管理我们的模式。

比如,在公共卫生方面,采集数据到了目前为止其实已经进行了好多年,它的数据采集原来并不是为了大数据来做的,其实是为了一个方便——方便大家去看病。而且你的电子病例等,让你看病更人性化,或者对医生来讲能更快、更方便地去熟悉病情,但在这种情况下,这个数据一旦采集起来使得我们对整个城市的健康状况就能进一步了解,所以,刚才讲的看病的数据其实是原本的用意,大数据一来其实我们就能看见原来看不见的问题。比如一些比较大趋势方面的问题,流行病在哪个地方比较多,或者它怎样流传的,等等。这些事情我们原来是看不到的,这种情况就是大数据对我们的帮助。

徐明强:先举个例子,有一个球和一只蚂蚁,球跟蚂蚁说,做三维世界的事物太好了,你看这条线上有多少个蚂蚁我一眼就看见了,蚂蚁说我真的不信,我得按照这条线爬,爬到头计数器没有出故障我才知道有多少蚂蚁。这能看到三维和二维差了一维,就差了这么大,所以大数据首先它不是数据大,不是同样的数据多了就变成大数据,而是在原有的二维、原有的数据库基础上,再建立一维,给它一个全新的看点。举例说明,你如果在美国,你是欠了债的,除了债主对你感兴趣,还有人会对你感兴趣——如果你欠了债,突然你可以还债了,那么银行会对你感兴趣。在11年前,美国资本一号就发明了一种大数据的应用,它可以找到哪些人是欠了银行的钱、欠了信用卡的钱,然后它就会观察你的消费数据,当它发现你可以开始还的时候,他立刻把你再买过来,从此以后他就吃上了你的利息。资本一号这个公司在2001年时,每个季度的增长率是20%,就是因为它大数据的程序,它可以高命中率地发现这个,它是从哪里找来的数据呢?从沃尔玛、从各种各样的消费数据中找到的。从这个实例我们可以看出,大数据这个原有的数据分析商务智能上加了一层,商务智能不能告诉我们别人将要并且能做什么。

关于我们公司对奥斯卡颁奖的预测,除了对李安的预测没对,其他都对了。其实,我们的预测是把所有人员都做了一个概率,所以做了19个预测对的,是我们放在第一概率的获奖人,下面还有4个是第二概率,所以李安导演我们放在第二概率,我们把他放在后面。

这个预测跟大数据很有关系,首先做大数据需要有IQ,智商,就是说,这个模型要非常好。我们公司做IQ的人叫加戴维·罗斯查尔德,是我们研究部门的一个人。还有其他人,我要讲讲,他这个人的IQ有什么差别?他这个人的IQ用了一个非常简单聚合的模式,除了IQ还有什么呢?智商以后还要有勤商,勤奋的勤。勤商就是说,他非常勤奋地去找数据,要找多种数据,还要找非常实际的数据,所以他在网上、社交网上都有找。有一些找不到的数据,怎么办?他找人做调查,然后找人来做,所以他又有智商,又有勤商,够不够呢?还不够,五年前这种事情做不到,为什么?五年前他要做这样大量的数据的话,自己作为一个研究生的小预算是做不到的,但云计算的出现,他就可以做到了。可以延伸这些数据,用很多处理器来处理,现在他就是用了云做这样一个计算,最后成功了。

孙健:我写的是机会加危险,就是危机。我同意维克托的结论,说这是一个新的金矿,或者有说法叫新的机会,但不要忘记那同时会带来很多危险。如果我们不能很好地去处理大数据的话,特别是像在我们日常工作中接触到的很多中国企业,它们大多数甚至在最基础的数据分析方面还比较落后,这就意味着,我们该怎样很快地过渡到大数据时代去,去面对大数据挑战,如果准备不好,那我很担心,这会像以往很多新技术来了以后的情况,很容易造成很多企业邯郸学步——连走路都还没学会,就要学跳,一下子迈到大数据时代,企业不知道怎样真正地让大数据发挥作用。

在我们的行业里,因为大数据而做了很多产品创新。谈到大数据时代的破坏型创新,实际上也是谈了同样的问题,因为在创新的同时,事实上要推导、颠覆原来的很多东西,包括我们咨询行业的很多服务和产品都要做更新,也要跟上时代。比如,我们有一家很大的全球性零售企业,它每天要处理海量数据,那么在海量数据之前,虽然有了技术手段,它仍需找到一个很好的切入点,去解决大数据该怎样应用到业务中,改变业务模式,给业务创新带来价值。因为要把这个大数据加以更好地利用,再便宜还是投资,还是要改变,硬件、软件各方面要做配置,甚至对应的组织要做调整,一个企业要做进一步调整才能适应大数据时代的需求,才能让大数据发挥作用。所以我们做的工作就是帮助企业找到它的价值创造,建立业务模式,来证明在这方面做这样的投资,让大数据发挥作用是值得的。

俞吾金:我想提出不同看法,就是因为人类的思维有一个特点,他把觉悟的东西夸大为全球的。比如你看到三只天鹅是白的,但其实有一千只天鹅都是白的,可在澳大利亚发现了一只黑天鹅,就把一切天鹅都是白的这个原理给推翻了,我觉得大数据这个问题是重要的,但如何正确看待它,不能走极端。大数据反映了人们从数量关系去理解生活的一种思维方法,从古代开始就非常重视,当然古代没有使用大数据这个概念。

数字本身对生活的重要性越来越大。从哲学上看,它有实践性,比如数学中的π,圆周率,它等于3.1415926……它就把所有大数据都囊括进去了,更容易理解的是三分之一,三分之一的另一种写法就是0.333333无限被延伸,所以黑客在逻辑学里就强调,这个无限包容在三分之一这个有限中,有限中包含着无限的一个展开,包含所有数据的展开,这就体现了实践精神。从这个实践角度看这个数据,我认为大数据在当代的变动中有重要地位,但看它要有眼光,不要夸大也不要缩小。

3 怎么理解三分之一就把一生所有数据都概括了?

维克托:我不同意俞老师的观点。数字的历史很悠久,但是,以前我们对这些数字的处理方式非常有限,光有技术是不够的,能对数据进行分析,比如像数字,它对你只是一个数字,这个意义不重要,你也可以用一个汉字或一个字母来表示,那从这个角度来看,大数据不过是一个很长很长的数字,你可以用心记住就可以。

但其实,大数据的价值在于,在整个数据的收集过程中,需要运用分析才可以了解。比如,如何进行预防性的维修,如何能够防止爆发等,我们不是把这个数字简单地记下来或背下来,而是要通过分析,通过数据统计的分析,通过把它进行整理了解之后分析,这不是你背下来一个数字就可以了,这是非常大的区别。

4 大数据时代究竟会给生活带来什么样的颠覆?

维克托:首先从商业来讲,我觉得有三个元素要记住:一个是在商业世界中决策将发生变化,会越来越清楚地证明,要靠数据说话。

在美国,最大的互联网公司大概是谷歌,每天都有30亿搜索请求。有一天他们屏幕上准备用蓝色,然后他们就选了一个特别的蓝色,但他是要测试41种不同的蓝色,来看到底哪一种最受欢迎。他本来想自己来决定:我是首席设计师啊,我就选了一种蓝色。但他的老板说:不行,我需要实证来告诉我们哪一种蓝色最受欢迎。但这个谷歌的首席设计师就辞职了,他说我是首席设计师啊,我是最清楚的。通过很多测试发现,有一种蓝色的蓝是裸眼看到和设计师选的蓝色不太区别得开,但另一种通过测试所产生的蓝色,更受欢迎,有更多点击量。通过实证做出来的决策更有效。类似例子有很多,都说我做这行已经几十年了,我说的肯定没错。这种传统的社会观念和思维方式会受到挑战,我们的决策必须要靠数据说话,这是第一点。

第二,就是在我们出去说话时,我们要注意不能误读数据,错误的数据是不行的。也就是如果原来的材料不对,原料是垃圾,出来的东西肯定也是垃圾,这个公司出这些数据的话都是比较容易理解的,但可能不是你应该熟悉的数据。

第三个是挑战。就是普通产业,尤其是计算机产业,数据会超越它们,这个可能是有一种挑战式的说法。如果没有足够的数据,你也赶不上一个大量数据的比较平庸的模型,也就是为什么说数据会超越那些产业。比如机器翻译这件事,在六七十年代,IBM花了很多钱想用机器翻译,它要弄一些语言的规则输入到机器中,但效果不太好,它就有了一个新想法,它不是把一种语言的语法规则输入机器,而是把加拿大议会中的英法双语的互译输进去,把成千上万的翻译资料输入进去,它就有了大量的累计组织上的数据库,这个效果就好得多。而谷歌又在这个领域有更多数据,一下子这个翻译就更成熟、效果更好。可以说,是这个数据使它超越了这个软件。因为今天这个大数据的力量,可以很容易地获得想要的资讯,但大概在十年前,需要五十万个服务器,大量的储存以及处理数据的模式,你才能开始一个新业务。今天如果要输入业务,用云计算来测试就可以了。比如有一个叫蒂塞德的公司,它有很多产品及价格,它收购一些数据来预测到底一个产品是上架还是下架,虽然他们拥有大量客户,可这个公司的员工只有13个人,因此它的服务器有很多,他们拥有大量的数据。可见,这个舞台不仅可以让大公司来做,而且创新的小公司也能以平等的地位来竞争。

王晓阳:其实讲到改变了我们整个思维方式,所谓的就是实验这个思维,比理论思维更重要,这一点我不是太懂。其实维克托先生刚才举的例子,是在很多情况下,是我们用数据去验证以前想要能够有的东西,有一些智慧确实是在数字里挖掘出来的,这个可能是一个语言来自不同的地方,怎么讲呢?基于在大数据的情况下,其实有一个所谓的循环概念,等于说你有了智慧以后去验证,验证数据里又产生了各种各样的智慧来做这样的理解,所以从这个角度来讲,我觉得是大数据的情况下面,没有颠覆,而是说一个改进,对我们认知世界的改进。就公共卫生这个话题来说,我们举的最多的一个例子就是在谷歌,有一个所谓的趋势预测,它就是用了网民们搜索的词来预测。

所谓的预测流感,怎么做?很简单,就是它去分析了以往的数据,说在流感发生的地域,地域的那个时间大家是用什么词去搜索,这样就可以做统计。做了统计以后,反过头来用这些搜索词来预测这个流感,这种情况下是什么意思?并不见得是说这种数据或大数据的情况就能使我们对这个流感突然有一个新的认识,其实不然,其实是谷歌的那些工程师们有一个想法,认为我们好像流行流感,这和大家有关,而每个人都会用搜索来获取一些跟流感有关的信息,就有了这样的关联。这个关联怎么去发现?这就要用数据去发现,用所谓的大数据的做法,去实现我们已有的一些概念的东西,把它实现了之后,就能做预测。所以从这样的角度讲,并不见得是有了大数据,我们就可以把所有的智慧都丢掉,我们不用IQ了,只要数据就好了,这肯定是不行的。一定是IQ加上数据,然后能让它有个正反的概念,这是大数据所应该干的事情。

童士豪:我有不同想法,我觉得刚才维克托先生讲的一点很有意思,就是对智慧的要求,大数据时代是不一样的。在大数据时代,对智慧的要求可以低一点,都能产生更好的结果,这是一个有意思的事情。他刚才提了一个例子,之前要做翻译是很难的,你的规则必须特别强、精简、完整,才能有60%、70%的准确率。但在大数据时代,我们不用想那些,不用花智慧讲那么复杂的规则和套路,干脆把几亿个已翻译好的文章交给电脑,用统计学的方式找到哪种情况下,翻译的字的另外一个意思是比较对的。这对于智慧的要求其实是降低了,但效果可能会更好。

孙健:可能我们对智慧的理解有歧义。我觉得维克托先生讲的我理解,因为他有另一本书叫《Delete》,里面专门讲了这个三重智慧,谈了取舍问题。因为随着存储技术、因特网的发展,他讲的更多的是知识,知识的要求可以低,但对智慧,我觉得理解不一样。我理解的智慧是,你判断一个事物的根本的、真正的洞察能力。就是,你对一个事物的洞察能力还是需要有,不会因为大数据的存在而削弱或不需要了,而恰恰因为大数据的存在才更需要洞察力。

5 大数据时代到底真正来临了吗?

王晓阳:大数据时代来不来临要看你怎么度量、衡量。现在这个数据的量和种类,以及采集的方式、手段,处理的手段,绝对已经达到了“前无古人,后无来者”的感觉。这个情况下,我们从这个数据采集以及数据处理这个能力方面来讲,我们的大数据时代来临了,但我们使用数据利用数据这个才是刚刚开始,只是刚起步。

而大数据改变我们生活的时代,还没有完全到来,但为这个我们已经做了很多准备,这是城市的管理问题。我们为大数据时代做了很多准备,比如在数据采集方面已经做了很多准备,怎么样利用这个数据来做我们这个智慧城市,这是一个最大的问题。

徐明强:从商业角度来看,我从运用上说,个人认为是来临了。举个例子,墨客这样一个药材公司,他可以根据天气性质,比如如果今天冬天特别冷,很多过敏性动物就会冬眠,四五月份突然转热时,花粉也开始多了,今年有很多人会过敏,等等,它就通过市场进行营销,把比如克敏能这种药材发布出去。

维克托·迈尔·舍恩伯格:美国总统奥巴马曾说,尽管政府也尝试,但他总是落后于企业,落后于社会的其他一些群体。所以说搞这种活动能充分激发数据,提供给大众,而且公司也可以拿这些数据,让公司能利用这些数据有更多创新。这是一个想法,也许有一些做法,比如商业方法,我认为能通过发挥企业的智慧,发挥像微软这样的一些聪明企业的智慧,还是有帮助的,包括和政府的合作来管好社会。

石述思:我有一个感受,当商业巨头面对屌丝谈大数据时,我们都有一种不寒而栗的感觉,因为尽管大数据时代我们每个人都是公平的,我们可以说小公司可以获得公平竞争待遇,但其实掌握大数据的都是一些巨头,他们有得天独厚的优势来抢我们钱包里的钱,我们很难,因为公司的定义就是在法律允许的范畴中唯利是图。但我们倒是渴望政府部门能利用大数据为我们提供普惠性的服务,可就像一些智慧城市没法真正做到智慧管理的案例一样,所以我对大数据来到中国的前途深表忧虑。还有,即使优秀的公司利用大数据,它也要面对一个现实,比如我们像电视台做广告的一样,为什么现在人依然很多,因为中国贫富差距特别大,如果你掌握了所有消费者的数据,而大多数在今天是无效数据,所以你还是有一个有选择的大数据的过程,叫有购买力的大数据,所以各种各样的问题就会出现在我们面前,就是社会本来是我们需要,但它存在很多幕后看不清楚的东西。我们担心被商业巨头利用,来完成对消费者进一步的盘剥。

孙健:我觉得从企业角度来看也是同样的问题。我前面想表达的意思就是,第一我们今天中国很多企业实际上并没有准备好迎接这个大数据,因为我们现在还停留在比较初级的基础数据分析时代,我们很多的基础数据今天都没有被运用,不要说大数据,就是小数据今天也没有很好的利用。还有很多假的数据,是因为对这些数据的输入管理非常不成熟,我自己在工作中接触很多企业,企业今天做的几件事大家都在做,有ERP系统,有数据库,有了数据就往里面存,但我发觉,有很多中国企业兑现的数据管理没有规范化的感觉,更没有很好的利用。这就存在这样的担心:最后大数据时代来了以后,我们本来中国企业在这个数据分析的利用上就不擅长,今天有了大数据以后差距会变得更大,以后国际巨头有一个成熟的数据分析方法,很多健全的商业模式,它会把这个差距变得越来越大。

6 在大数据时代,下一个预言会是什么,下一个判断会是什么?

维克托:接下来怎么能让生活比现在更高效,就是要让城市变得更加智能,这是可行的,为什么?我强调的是,我们有可能改善我们的公共卫生,改善教育,我们有能力收集数据,公共交通的通化能真正满足市民的需求,而不只是政客,而且能源消耗也会得到更好的检测、预测和管理,这样我们的城市就会更加智能,让城市的生活更加好。在150年前,曾有预测如果是在城市生活,寿命会更短;在农村生活则寿命长。而150年之后的今天,寿命更加长了,有了大数据我们会更加美好,可是有一个条件,就是那些决策者,他们一定要使用这些数字才可以。

下一步是专家怎么来做。其实这涉及到在数据时代,数据点是有限的,那么我们收集的数据,只要我们收集足够的数据来解决问题就可以了。因为非常复杂、数据点非常少,所以我们的数据点收集起来必须是要高质量的,现在不是这样的,现在的是更加的多、更加的乱。解释一下什么叫更多更乱,更多就是有数据点,关于我们想要研究的一个现象,我们可以更多的进行数据统计,比如在美国,你有DNA基因图谱,那么只要2000美金就可以知道你的整个基因图谱当中的30亿这个东西是怎么组成的,这样你就可以知道那些30亿个精对,现在如果说有一个基因组成可能会导致什么样的癌症,就可以查基因图谱,说我是不容易生这个病的,这是为什么可以预测是否患癌症的原因。那么有更多的数据便会存在一定的不准确性,所以,我说更多且更乱,所以这里允许一点点的不准确,或者可以乱一点,这个所谓的乱就是指,不是说每一个数据点都要达到最高的准确度,这个结果就是,不是百分之一百完美,但在大数据这样一种方向,或者说,我们在正确的数据点上要知道一个方向。知道方向比晚一点知道完美的数据更有效。比如交通预测,也许当下看到的交通预测比实际运用中要晚了20分钟,可能看起来太晚了,但如果这是预测一个星期的信息,就够了。

王晓阳:大数据时代对我们这个城市更加理解,所谓的理解就是你知道这个城市里发生了什么,这非常重要。在以前,这个城市的管理都是一拍脑袋,有的时候拍脑袋拍出很好的来,拍脑袋也能拍出非常棒的一个城市来,但是有的时候呢?拍脑袋可能太离谱,这种情况下在大数据时代我们怎么样利用好,就是我们所讲的。而为了政绩也可以用大数据来考虑,说这个数字到底对它的政绩有没有好处?就是名义是一个很大的方面,大数据方面不光是理解我们这个城市发生了什么,而且还能了解我们城市里的民众在想什么?这点对城市管理来说非常重要,城市不光是一个硬件设施,不光是地铁和高楼,人在里面非常重要。

以上是小编为大家分享的关于大数据时代,人类生活面临颠覆的相关内容,更多信息可以关注环球青藤分享更多干货

② 大数据需不需要备份和灾难恢复

你不懂大数据 根本谈不上数据备份 大数据本身就是一种数据的采集和计算 是流式计算 备份只需要在数据库备份就可以 而灾难恢复 是指的数据库的恢复 而大数据更多的是 数据集群的处理方式,仅此而已。

③ 大数据需不需要备份和灾难恢复

大数据需不需要备份和灾难恢复
大数据应用的发展趋势是在拥有大存储容量的同时配备用于执行数据分析的融合硬件设备与分析软件包。这些应用通常不会用于处理运营数据;相反,用户会通过查询数据来分析过去的产品销售、预测趋势和确定未来的客户购买模式。大数据应用通常并不会被定位为关键业务系统,虽然它们也支持销售和营销决策,但是并不会显著影响一些核心运营业务,如客户管理、订单、库存和配送等。
那么,为什么许多领先的企业IT部门都迅速将大数据整合到他们的灾难恢复计划中呢?这些数据量如此之大,会不会给备份带来影响呢?即便是备份了数据,从备份恢复数据是否会花费几天(几周或更长时间)呢?带着这些问题,我们来看一下如何进行大数据的灾难恢复。

数据太大,无法备份
灾难恢复最佳实践包括在指定的时间里将重要数据及时恢复到一致状态的能力。这段时间称为恢复时间目标(RTO),它必须在业务所依赖的运营数据的限制范围之内(最多几个小时)。但是,遇到大数据时该怎么办?大多数公司认为大数据的备份与恢复并不重要。其中包括以下这些原因。
运营系统更重要。在发生灾难之后,最高优先级的工作是恢复那些支持运营系统的数据。这些系统包括会计、订单条目、支付受理、工资等,它们是保证公司正常运营的必要条件。在这些数据恢复之后,第二优先级的工作是支持这些系统的运行。
大数据并不是关键业务系统。预测和趋势分析可能是营销的重要手段,但是这些分析及其相关的查询和用户报表都基于历史数据,而非实时数据。
大数据的体量非常巨大,一个大数据应用所存储的数据量可能是所有运营数据之和的数十倍。这是因为大数据应用工作在数据的历史快照上。十年的历史数据就会包含几千天的快照。它备份在什么介质上,备份需要多长时间,然后需要的备份存储有多大?
备份与恢复流程需要I/O通道容量。在短时间内迁移大容量的数据要求使用较大的容量。备份与恢复会耗尽I/O通道,唯一可行的替代方法是安装足够的附加容量去处理这些任务。
当大数据成为关键业务系统
上面介绍的原因并非适用于所有公司。有一些关注客户的系统也会使用大数据分析,这意味着大数据应用将属于运营处理的一部分。在其他企业中,大数据开始成为一种简单的查询和报表工具。有一些专用查询会慢慢体现其重要作用,然后变成一些常规报表。这些有用的报表会受到管理层的关注,他们会因此将这些报表变成一些重要的操作。最终,管理层会逐渐依赖这些报表来作出运营决策。因此,他们的大数据应用就会逐渐向关键业务系统靠拢。
大数据应用发展成为关键业务系统的趋势是不可避免的。这些应用的安装和配置过程代价高昂且耗费时间,同时也需要由高素质的技术人员来完成。此外,查询数据的业务分析师很少会亲自处理数据。通常他们会使用一些专门用于查询和分析大数据的分析软件包。这些软件同样非常昂贵,同时只有经过大量培训的技术人员才能高效使用这些软件。
公司在大数据应用投入了大量的金钱。公司迫切希望从他们的投资中获取有价值的回报。从数据分析得到的报表可能产生更好的客户服务、更快的产品周转速度和更高的收益。而收益恰恰就意味着关键业务。
大数据备份方法
如果准备在灾难恢复计划过程中恢复全部或部分大数据应用,那么可以考虑选择下面这些备份方法。
最重要的是要记住:大数据主要是历史数据和静态数据。运营数据快照会被提取到一个分段集结区域,进行整理和转换,然后再加载到企业数据仓库和大数据应用中。在此之后,它们都不会更新。这意味着在每一个快照上只需要运行一次备份流程。
最常用的备份方法主要有:
·数据复制。这是一个常用的备份方法。当数据加载到数据仓库或大数据应用程序时,它们会同步传输到一个备份流程中,其中会载入大数据应用程序的一个备份副本。这个流程通常发生在灾难恢复站点中,然后在发生灾难时它仍然保有一份最新的数据。
·虚拟快照。这是一个硬件解决方案,它允许在存储介质上创建整个系统的虚拟备份。数据库写操作会在中断一小段时间,这时管理存储子系统的硬件会对所有文件执行内部复制操作。这个复制流程可能非常快,有时会在几秒钟内完成。在复制完成之后,数据库管理系统又会重新允许执行写操作。
快照提供了超快速的恢复时间,它的假定前提是可以恢复到创建快照的指定时间点。除此之外,恢复到非快照创建的时间点需要有一些方法能够将所有最新数据库变化(日志捕捉)应用到快照中。另一个问题是存储容量。快照可能要求将当前使用的存储加倍。而且,当灾难发生时,当时的快照会作为当前数据,但是还必须分配另一个快照区域,以备应付新的灾难事件。
·本地与远程副本。这是一个经典方法,它由磁盘备份和包含物理磁盘驱动器或数据库的阵列备份构成。DBA使用供应商工具访问那些通常存储为一种压缩私有格式的数据。这些备份会快速地执行和加载,因为它们采用的是内部数据格式。
恢复自动化与测试
灾难计划的另一个重要部分是保证恢复在规定的RTO内完成。对于大数据而言,这通常意味着要使用标准流量或供应商工具实现恢复自动化。聪明的DBA会尽可能自动化更多的任务,从而最大可能减少相对较慢的人为干预。这其中就包括要避免以下行为:
·人工处理备份存储(例如,移动和操作磁带);
·输入命令行;
·检查纸质报表或文档。
在实现恢复自动化之后,要定期测试、测试再测试。记住,大数据总是在不断地增长,而且随着数据量的增加,备份和恢复时间也会增加。
总结
大数据无论部署还是使用都非常耗费时间、金钱和资源。许多公司迫切希望从这些大投入中获取回报,查询和报表能够提供一些宝贵的洞察力,帮助执行决策、应付变化和获得收益。大数据应用最终会变成关键业务系统。在此之前,一定要保证自己的IT基础架构能够备份和恢复这些数据。

④ 谈谈大数据带来的影响有哪些

大数据的价值体现复在以下几个方制面:

1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销

2) 做小而美模式的中小微企业可以利用大数据做服务转型

3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

大数据的影响,几张图来看看:

⑤ 大数据安全的重要性

大数据在企业和事业单位应用越来越广泛,也越来越被人所熟知,数据的价值也越来越多的被人所认识。它已经成为了一种新的经济资产,被看作是新世纪的矿产与石油,为整个社会带来了全新的创业方向、商业模式和投资机会。
大数据时代,组织和企业会更多的依靠数据分析而非经验和直觉来制定决策。充分挖掘和使用数据的价值将为组织和企业带来强大的竞争力。我们的周围也不乏有希望通过挖掘数据价值,提升组织或和企业竞争力的客户。像所有的科学技术一样,大数据也是一把双刃剑,能否合理利用成了其剑锋所向的分界点。
数据安全存在着多个层次,如规章制定、信息收集、信息传输、信息传输等环节安全。对于业务数据的安全,三分制定,七分技术,其他安全也是至关重要。
业界通常以四个“V”来概括大数据的基本特征:Volume(数据体量巨大)、Variety(数据类型繁多)、Value(价值密度低)、Velocity(处理速度快)。而恰恰是这四个特点,也决定了其安全风险。
数据安全比传统信息安全更加复杂,体现在三个方面。
(1)业务数据越来越大,包括越来越多企业数据、个人资料、客户的隐私,数据的集中存储环节存在很大数据泄露隐患。
(2)敏感数据的应用界限不明确,大数据的分析大多未考虑到个体隐私问题。
(3)大数据对数据安全依赖提升,传统的像APT、DDos等安全工具,在数据防丢失、防泄漏上存在一定的技术难度。
大数据技术,主要是针对事物之间或者人和事物之间进行关系分析,如果大数据技术只是单纯的辅助决策的作用,那并不可怕,但事实上,大数据分析技术逐渐变成了一项重要的业务决策流程,越来越多的决策结果受到大数据分析结果所影响,对于决策者来说,最艰难的事情就是让我们逻辑思考来做决定,还是有智能分析的数据做决定,现在来看,智能分析的结果往往是正确的,并且让我们对其产生依赖,试想一下,如果大数据分析手机的基础信息数据出现问题,或者分析的逻辑是不正确的,那么将会引导我们走向错误,所以,面对海量的数据,存储、管理和分析,传统的对错分析和奇偶校验可能不能满足需求。
3 大数据就是大风险
大数据之“大”实际上指的是它的种类丰富、存储量大,因此管理起来是一个具有挑战性的工作。然而,无论企业在数据的存储、应用以及环境角度来看,“管理风险”不可避免地成为了“大数据就是大风险”的潜在推力。而数据安全是使用单位的重中之重,数据安全技术直接影响国家安全。总结起来,主要体现在五个方面。
3.1 云数据
目前来看,企业对诸如云服务等新技术的应用还是面临很多的困难,因为在实际应用中可能会遇到一些无法预料的问题。另外,黑客们对于放在云端的大数据更容易获取对于他们有用的信息,因此企业对云计算的安全性要求就会更高。
3.2 网络安全
随着互联网、移动互联网和物联网的发展,IT资源产生的在线数据正在被利用,但是数据量越来越大,已有的分析利用效率越来越低,数据的维护和利用压力正在变大。所以企业对于大数据应用中,对网络的恢复、防范依赖性就越来越高。
3.3 隐私
个人隐私作为一直备受关注的社会问题,随着各式各样的数据量越来越大,通过多种关联技术的分析成熟,个人隐私问题也将愈加凸显。
3.4 消费化
随着移动办公的兴起和广泛使用,在数据收集、存储、访问、传输都必不可少的有移动设备的介入。大数据时代的兴起带动了移动设备数量的骤增,为了方便,越来越的员工使用自己的移动设备进行办公。使用方便的同时,也给企业带来了安全隐患,移动设备很容易成为黑客入侵到内网的跳板,所以,移动设备的安全性关系着企业的安全。
3.5 互相联系的供应链
企业是供应链中的一部分,而这个供应链具有复杂性、全球性、还相互关联。信息将供应链紧密地联系在一起,从数据到商业机密再到知识产权,而信息的泄露会给企业带来经济和名誉上的重大损失,因此信息安全也越来越被重视。
不难看出,围绕大数据的五个主要问题多是其安全问题。的确,信息安全是关乎企业生存命脉的一根红线,在任何时期都是不可碰触的。面对大数据的双刃剑,保护好这些敏感数据的安全及其大数据分析生成的各种战略方案、机密文档、市场报告等成果,是促使大数据助力企业发展的关键环节。 各类技术都在考虑它们的安全性,并力求从中寻求一个契合点,云计算还有大数据,也都在寻求安全和各类技术有效融合。当大数据考虑安全性的时候,一个全新的安全生态系统伴随着大数据生态系统的成熟逐渐在我们眼前清晰地展开,资本运作和创新的动力不断地驱动着安全向前迈进。
4 数据信息的“安保”直接影响数据开发
不可否认,信息化程度越高,信息安全受到拷问的程度就越大。困扰全球各国的数据安全问题,同样也在考验中国。不能实现数据信息的“安保”,数据的开发就是一场灾难,世界主要经济体对此无一不有清醒认识。

⑥ 大数据时代数据安全策略

大数据时代数据安全策略

大数据未来已来 商业价值巨大

众所周知,今天的数据量正在呈几何式增长,以个人消费者为例,现在我们每个人每天都会产生大量的数据比如上网数据、购物数据、社交数据。而在企业市场,数据量更是惊人, 移动设备、互联网以及企业自身的数据加速了大数据到来 。阿里的马云曾经说过,我们现在正在处于一个由IT时代向DT时代转变。实际上,这不是在耸人听闻,小到我们个人消费者大到行业企业的发展,处处在产生数据、又处处离不开数据,基于大数据技术,无论是个人还是行业企业可以去很多的业务创新以及价值转换,事实上,大数据的价值已经不言而喻。梭子鱼中国华南区高级技术经理范宏伟认为,大数据在行业发展的前景非常广阔,不论是传统的金融机构还是现在时髦的互联网金融机构,通过大数据技术能够分析每个人的特征,根据所形成的特征进行汇总,能够助力金融机构实现对于贷款人的评判。

在政府和房地产行业,未来随着数据的开放,通过大数据技术查询房产不需要在回到原省区查询,直接在所在当地就可以查询。

对于企业的内部管理而言,通过大数据技术可以分析出营销存在的问题,然后根据问题,不断的优化、解决,从而使整体的团队营销水平最终得到有效的提升。

今天的大数据对于企业而言是非常有价值的,经过多年的大数据的发展,范宏伟认为,大数据现在呈现以下几大特点:

第一,规模越来越大。在过去十几年前,几百GB的数据量已经非常巨大,但现在都已经是TB、PB级的,从这方面来看,数据规模越来越大;

第二,数据类型非常多,过去只有单一的数据,现在越来越多非结构化数据如音频、视频、社交数据等对数据处理能力提出更高要求;

第三,数据处理速度快,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的 “当前结果”很可能已经没有价值。

第四,数据价值高。海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。

大数据 安全不容小觑

虽然我们一再强调大数据的特点以及在行业中的价值,也传递了它的正向作用,但是任何事务都是双向的,既然大数据有正向作用,那么它也有反向作用暨开展大数据也是存在挑战的,而安全成为企业开展在大数据不容小觑的“门槛”。

还是以金融为例,通常金融的数据信息是最“齐全”的,对于黑客而言,通常会进行多个点的“攻击”,一旦攻开一个点,它就可以“拿”到整个数据,这对金融机构特别可怕,特别是互联网金融如P2P的兴起,由于技术薄弱以及众多的后台接口,导致每天被都会被攻击,而且在互联网环境下黑客的成本在降低,这就导致了在大数据时代企业存在安全风险。

范宏伟表示,在大数据时代,黑客对于企业的攻击点是无形中增加的,它已经不在局限于企业自身的攻击,而是通过“外围”的方式深入到企业内部比如美国某知名电商网站受到攻击后发现原来黑客是从该网站的供应商系统中切入到,从而获得了数据。因此,对于企业而言,企业的数据安全风险的,这也是企业的CIO、IT管理者在企业发展中需要思考的问题。

大数据时代数据安全策略

现在我们可以看到,在整个IT系统中,数据已经成为IT很重要的资产,那么,数据作为企业中很重要的数据,我们怎么保护数据?如何做到有效的容灾?而且大数据存在安全风险,那么作为企业的CIO、IT管理者而言又该如何来应对?

对于此,范宏伟认为,CIO开展借助大数据安全,首先要做好大数据的安全策略:

第一,规范建设。不论上新应用信息系统还是过去旧的系统,都需要有规范化的管理,在大数据时代如果没有规范,它所面临的就是数据丢失。

第二,建立以数据为中心的安全系统。

第三,融合创新。

实际在这三点对于每个行业企业在开展大数据安全管理时,都具有重要的参考价值。对于企业的CIO而言,企业的核心数据如ERP系统首先可通过预判来进行防范,实现安全预警。比如平常员工很少晚上登陆ERP系统帐号,如果晚上登陆ERP系统,就可以判断是疑似的预判,从而做出相应的应对措施。

对于企业的核心数据保护需要考虑以下五个方面的因素:

第一,灾难的类型。会有哪些灾难以及会对系统到来多大损失?当机器出现故意后,对于企业有多大影响比如ERP系统机器损坏以后会影响到企业的生存发展;

第二、恢复时间:灾难发生后需要多久恢复?

第三,实用技术。目前有哪些可靠的技术,可以保护数据安全

第四、成本的问题。实施容灾方案的成本以及不实施容灾灾难发生后的损失成本?

第五、恢复程度;系统恢复还是数据恢复?恢复数据的最后更新时间?

范宏伟进一步指出,在有限的成本中,把数据保护实现最大化,则需要CIO要在实施成本、宕机时间、解决方案达成一个平衡。因此,开展数据保护或者对于整体数据容灾系统应该从底层的数据备份恢复开始做起,逐步开始数据复制、应用切换、业务接管等四个方向。

以上是小编为大家分享的关于大数据时代数据安全策略的相关内容,更多信息可以关注环球青藤分享更多干货

⑦ 大数据时代:数据安全管理是最大风险

大数据时代:数据安全管理是最大风险
大数据时代的来临,对中国来说面临安全管理能力、存储及处理能力、应用能力和人才培养能力等多方面的新挑战。

大数据的安全管理能力挑战。数据安全管理问题,是我国应用大数据面临的最大风险。虽然将海量数据集中存储,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。有专家指出:由于新技术的产生和发展,对隐私权的侵犯已经不再需要物理的、强制性的侵入,而是以更加微妙的方式广泛衍生,由此所引发的数据风险和隐私风险,也将更为严重。
当前,我国对大数据的保护能力还十分有限,数据被恶意使用的现象仍然难以掌控。我国个人和企业对于数据资源的保护意识,还比较薄弱。随着电子商务、社交网络、物联网、云计算、以及移动互联网的全面普及,我国数据资源与全球的数据资源一样,正在呈现爆发性、多样性的增长态势。但是,由于对数据保护认识的不足,以及对个人电脑安全防护的不当,个人或企业的隐私数据暴露在互联网上的现象十分普遍。2011年,我国最大程序员网站的600万个人信息和邮箱密码被黑客公开,进而引发了连锁的泄密事件。2013年,中国人寿80万客户的个人保单信息发现被泄露。这些事件都凸显出在大数据时代,信息安全管理所面临的、前所未有的挑战。
大数据的存储及处理能力挑战。当前,我国大数据存储、分析和处理的能力还很薄弱,与大数据相关的技术和工具的运用也相当不成熟,大部分企业仍处于IT产业链的低端。我国在数据库、数据仓库、数据挖掘以及云计算等领域的技术,普遍落后于国外先进水平。
在大数据存储方面,数据的爆炸式增长,数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大,对数据展现的要求更高。而目前我国传统的数据库,还难以存储如此巨大的数据量。在大数据的分析处理方面,由于针对具体的应用类型,需要采用不同的处理方式,因此必须通过建立高级大数据的分析模型,来实现快速抽取大数据的核心数据、高效分析这些核心数据并从中发现价值,而这些数据分析能力我国还很欠缺。
因此,如何提高我国对大数据资源的存储和整合能力,实现从大数据中发现、挖掘出有价值的信息和知识,是当前我国大数据存储和处理所面临的挑战。
大数据的应用能力挑战。我国拥有庞大的人口资源和大数据应用市场,市场复杂度高且变化多端,使我国成为世界上最复杂的大数据国家。我国互联网用户,通过利用互联网上的海量数据来提升自身的商业价值和科研价值。我国企业用户,也已积累了大量的数据信息资产,如产品数据、运营数据和价值链数据等。随着我国企业信息化系统的深入部署和逐步完善,大数据应用能力所引发的商业模式的改变,将直接影响我国企业的竞争能力。
在政府决策方面,当前我国政府部门的数据规模还很小,多数仍集中在对结构化数据的应用上,而对于非结构化数据的利用则几乎为空白。利用数据分析来支撑政府决策,我国做得还很不够。从认识到“大数据能产生价值”,到实现了“从大数据中找到价值”,再到“有效使用大数据产生的价值”,政府目前也只是刚刚起步。当前,如何收集数据、使用数据、开放数据、管理数据和利用数据来支撑决策,是我国面临的又一新挑战。
大数据的人才培养能力挑战。大数据领域技术人才和商业人才的缺乏,是一个全球性的问题。根据麦肯锡的一项研究显示,仅美国每年就有14万到19万名数据科学家的缺口,预计到2018年将达到44万到49万,而数据科学家则更是严重缺乏。
我国大数据分析专业人才缺口究竟有多大,有专家粗略估算至少需要100万人。当前,具备综合掌控数学、统计学、机器学习等方面知识的复合型人才,同时又可承担数据分析和数据挖掘的数据科学家,在我国尤为奇缺。目前,我国初级的分析人员只能对数据进行简单的报表和进行描述性分析,而随着未来大数据应用的不断增长,我国大数据人才储备不足的问题将更加严重。因此,培养能够解决大数据问题所需的人才,包括培养大数据分析人才和管理人才,是我们需要面对的又一紧迫问题。

⑧ 企业迁移大数据面临的五大风险

企业迁移大数据面临的五大风险

计算机系统之间的数据传输或存储格式从来就不是一个轻松的任务,特别是当它涉及结构化和非结构化的数据。芝加哥一家企业的数据解决方案提供商的联合创始人兼CEO Arvind Singh(以下简称辛格)认为,复杂的数据迁移工作意味着超负荷运行和延迟都是很长常见的。他指出,在迁移大数据时,面临着五大风险,企业应该竭力避免。

风险1:被委托进行数据迁移项目的员工缺乏实战经验。一个公司的员工可能非常擅长他们所做的事,但这并不意味着他们是在数据管理、迁移和治理是专家。辛格表示,他们是数据的创作者和消费者,但是他们并不是完全熟练运用工具、过程、服务、模板和加速器。风险2:你的团队太依赖工具的开发工作。这个问题往往导致缺乏经验的员工。一个数据迁移项目通常是IT部门的事,但可能并没被专业训练过。迁移工具使用不当最终会迁移了错误数据。这类似于把垃圾传来传去。辛格表示,你的目标,当然是快速、可靠地传输数据。重要的是你如何运用数据迁移工具和"你搭配的有什么样的加速器和模板"。风险3:交叉对象依赖性。交叉对象依赖常常很晚才被发现。一个复杂的项目可能会有60、70、甚至80个不同的数据对象中来自一百个左右的应用程序。事实上,交叉对象依赖性--并在后来发现新的数据来源的过程--是主要的风险,可以打乱你的迁移的时间表。风险4:试图在一个大的上传之后去上线。这是一个灾难,辛格说,因为你在假设一切都是完美的,你将能够简单地点击一个按钮,和所有的数据将负载得完美无瑕。 "这是个很大的风险,"他说。"你需要一个项目时间轴,复杂的,长期的测试负载的道路。"风险5:预算超支由于不适当的范围或准备工作的欠缺。这经常发生在,当一个组织认为它的系统集成商(SI)会照顾到这些细节时。 这个问题,当然,会导致成本超支和毁坏的时间表。

⑨ 大数据(Big Data)”一词已经变得没有以往那么红火了,为什么会这样呢

原因在于是在于盲目迷恋数据,不加批判地使用,那会引发灾难。

盲目迷恋数据与误用

“大数据”的问题并不在于数据本身很糟糕,也不在于大数据本身很糟糕:谨慎应用的话,大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特(Julia Rose West)在最近给Slate撰写的文章里所说的,盲目迷恋数据,不加批判地使用,往往导致灾难的发生。

从本质来看,大数据不容易解读。当你收集数十亿个数据点的时候——一个网站上的点击或者光标位置数据;大型公共空间十字转门的转动次数;对世界各地每个小时的风速观察;推文——任何给定的数据点的来源会变得模糊。这反过来意味着,看似高级别的趋势可能只是数据问题或者方法造成的产物。但也许更重大的问题是,你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。

例如,民意调查被广泛用作衡量人们在选举中的投票意向的指标。然而,从汤姆·布拉德利(Tom Bradley)1982年在加州州长竞选中败北,到英国脱欧公投,再到特朗普的当选,数十年来结果出乎意料的选举一再提醒我们,民意测验和人们实际的投票意向之间并不总是完全一致。Facebook以往主要通过用户有没有点赞来估量他们对特定的帖子是否有兴趣。但随着经过算法优化的动态信息开始大量出现标题诱饵、点赞诱饵和婴儿照片——导致用户满意度明显下降——该公司的高层逐渐意识到,“点赞”这事并不一定意味着用户真的喜欢特定的内容。

指标和你实际上要估量的东西之间的差别越大,过于倚重它就越危险。以来自奥尼尔的著作的前述例子为例:学区使用数学模型来让教师的表现评估与学生的测验分数挂钩。学生测验分数与不在教师控制范围内的无数重要因素有关。大数据的其中一个优势在于,即便是在非常嘈杂的数据集里,你也可以发现有意义的关联性,这主要得益于数据量大以及理论上能够控制混杂变量的强大软件算法。例如,奥尼尔描述的那个模型,利用来自多个学区和体系的学生的众多人口结构方面的相关性,来生成测验分数的“预期”数据集,再拿它们与学生的实际成绩进行比较。(由于这个原因,奥尼尔认为它是“大数据”例子,尽管那个数据集并不够大,没达到该词的一些技术定义的门槛。)

试想一下,这样的系统被应用在同一所学校里面——拿每个年级的教师与其它年级的教师比较。要不是大数据的魔法,学生特定学年异常的测验分数会非常惹眼。任何评估那些测验的聪明人,都不会认为它们能够很好地反映学生的能力,更不用说教他们的老师了。

而前华盛顿特区教育局长李洋姬(Michelle Rhee)实行的系统相比之下更不透明。因为数据集比较大,而不是小,它必须要由第三方的咨询公司利用专门的数学模型来进行分析解读。这可带来一种客观性,但它也排除掉了严密质问任何给定的信息输出,来看看该模型具体如何得出它的结论的可能性。

例如,奥尼尔分析道,有的教师得到低评分,可能不是因为他们的学生表现糟糕,而是因为那些学生之前一年表现得出奇地好——可能因为下面那个年级的教师谎称那些学生表现很好,以提升他自己的教学评分。但对于那种可能性,学校高层并没什么兴趣去深究那种模型的机制来予以证实。

加入更多指标

并不是说学生测验分数、民意调查、内容排名算法或者累犯预测模型统统都需要忽视。除了停用数据和回归到奇闻轶事和直觉判断以外,至少有两种可行的方法来处理数据集和你想要估量或者预计的现实世界结果之间不完全相关带来的问题。

其中一种方法是加入更多的指标数据。Facebook采用这种做法已有很长一段时间。在了解到用户点赞不能完全反映他们在动态消息当中实际想要看到的东西以后,该公司给它的模型加入了更多的指标。它开始测量其它的东西,比如用户看一篇帖子的时长,他们浏览其点击的文章的时间,他们是在看内容之前还是之后点赞。Facebook的工程师尽可能地去权衡和优化那些指标,但他们发现用户大体上还是对动态消息里呈现的内容不满意。因此,该公司进一步增加测量指标:它开始展开大范围的用户调查,增加新的反应表情让用户可以传达更加细微的感受,并开始利用AI来按页面和按出版者检测帖子的标题党语言。该社交网络知道这些指标没有一个是完美的。但是,通过增加更多的指标,它理论上能够更加接近于形成可给用户展示他们最想要看到的帖子的算法。

这种做法的一个弊端在于,它难度大,成本高昂。另一个弊端在于,你的模型加入的变量越多,它的方法就会变得越错综复杂,越不透明,越难以理解。这是帕斯夸里在《黑箱社会》里阐述的问题的一部分。算法再先进,所利用的数据集再好,它也有可能会出错——而它出错的时候,诊断问题几无可能。“过度拟合”和盲目相信也会带来危险:你的模型越先进,它看上去与你过往所有的观察越吻合,你对它越有信心,它最终让你一败涂地的危险就越大。(想想次贷危机、选举预测模型和Zynga吧。)

⑩ 大数据安全的六大挑战

大数据安全的六大挑战_数据分析师考试

大数据的价值为大家公认。业界通常以4个“V”来概括大数据的基本特征——Volume(数据体量巨大)、Variety(数据类型繁多)、Value(价值密度低)、Velocity(处理速度快)。当你准备对大数据所带来的各种光鲜机遇大加利用的同时,请别忘记大数据也会引入新的安全威胁,存在于大数据时代“潘多拉魔盒”中的魔鬼可能会随时出现。

挑战一:大数据的巨大体量使得信息管理成本显著增加

4个“V”中的第一个“V”(Volume),描述了大数据之大,这些巨大、海量数据的管理问题是对每一个大数据运营者的最大挑战。在网络空间,大数据是更容易被“发现”的显著目标,大数据成为网络攻击的第一演兵场所。一方面,大量数据的集中存储增加了泄露风险,黑客的一次成功攻击能获得比以往更多的数据量,无形中降低了黑客的进攻成本,增加了“攻击收益”;另一方面,大数据意味着海量数据的汇集,这里面蕴藏着更复杂、更敏感、价值巨大的数据,这些数据会引来更多的潜在攻击者。

在大数据的消费者方面,公司在未来几年将处理更多的内部生成的数据。然而在许多组织中,不同的部门像财务、工程、生产、市场、IT等之间的信息仍然是孤立的,各部门之间相互设防,造成信息无法共享。那些能够在不破坏壁垒和部门现实优势的前提下更透明地沟通的公司将更具竞争优势。

【解决方案】 首先要找到有安全管理经验并受过大数据管理所需要技能培训的人员,尤其是在今天人力成本和培训成本不断上升的节奏中,这一定足以让许多CEO肝颤,但这些针对大数据管理人员的巨额教育和培训成本,是一种非常必要的开销。

与此同时,在流程的设计上,一定要将数据分散存储,任何一个存储单元被“黑客”攻破,都不可能拿到全集,同时对于不同安全域要进行准确的评估,像关键信息索引的保护一定要加强,“好钢用在刀刃上”,作为数据保全,能够应对部分设施的灾难性损毁。

挑战二:大数据的繁多类型使得信息有效性验证工作大大增加

4个“V”中的第二个“V”(Variety),描述了数据类型之多,大数据时代,由于不再拘泥于特定的数据收集模式,使得数据来自于多维空间,各种非结构化的数据与结构化的数据混杂在一起。

未来面临的挑战将会是从数据中提取需要的数据,很多组织将不得不接受的现实是,太多无用的信息造成的信息不足或信息不匹配。我们可以考虑这样的逻辑:依托于大数据进行算法处理得出预测,但是如果这些收集上来的数据本身有问题又该如何呢?也许大数据的数据规模可以使得我们无视一些偶然非人为的错误,但是如果有个敌手故意放出干扰数据呢?现在非常需要研究相关的算法来确保数据来源的有效性,尤其是比较强调数据有效性的大数据领域。

正是因为这个原因,对于正在收集和储存大量客户数据的公司来说,最显而易见的威胁就是在过去的几年里,存放于企业数据库中数以TB计,不断增加的客户数据是否真实可靠,依然有效。

众所周知,海量数据本身就蕴藏着价值,但是如何将有用的数据与没有价值的数据进行区分看起来是一个棘手的问题,甚至引发越来越多的安全问题。

【解决方案】 尝试尽可能使数据类型具体化,增加对数据更细粒度的了解,使数据本身更加细化,缩小数据的聚焦范围,定义数据的相关参数,数据的筛选要做得更加精致。与此同时,进一步健全特征库,加强数据的交叉验证,通过逻辑冲突去伪存真。

挑战三:大数据的低密度价值分布使得安全防御边界有所扩展

4个“V”中的第三个“V”(Value),描述了大数据单位数据的低价值。这种广种薄收似的价值量度,使得信息效能被摊薄了,大数据的安全预防与攻击事件的分析过程更加复杂,相当于安全管理范围被放大了。

大数据时代的安全与传统信息安全相比,变得更加复杂,具体体现在三个方面:一方面,大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险;另一方面,因为一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题;再一方面,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。

【解决方案】 确立有限管理边界,依据保护要求,加强重点保护,构建一体化的数据安全管理体系,遵循网络防护和数据自主预防并重的原则,并不是实施了全面的网络安全护理就能彻底解决大数据的安全问题,数据不丢失只是传统的边界网络安全的一个必要补充,我们还需要对大数据安全管理的盲区进行监控,只有将二者结合在一起,才是一个全面的一体化安全管理的解决方案

挑战四:大数据的快速处理要求使得独立决策的比例显著降低

“4个“V”中最后一个“V”(Velocity),决定了利用海量数据快速得出有用信息的属性。

大数据时代,对事物因果关系的关注,转变为对事物相关关系的关注。如果大数据系统只是一种辅助决策系统,这还不是最可怕的。事实上,今天大数据分析日益成为一项重要的业务决策流程,越来越多的决策结果来自于大数据的分析建议,对于领导者最艰难的事情之一,是让我的逻辑思考来做决定,还是由机器的数据分析做决定,可怕的是,今天看来,机器往往是正确的,这不得不让我们产生依赖。试想一下,如果收集的数据已经被修正过,或是系统逻辑已经被控制了呢!但是面对海量的数据收集、存储、管理、分析和共享,传统意义上的对错分析和奇偶较验已失去作用。

【解决方案】 在依靠大数据进行分析、决策的同时,还应辅助其他的传统决策支持系统,尽可能明智地使用数据所告诉我们的结果,让大数据为我们所用。但绝对不要片面地依赖于大数据系统。

挑战五:大数据独特的导入方式使得攻防双方地位的不对等性大大降低

在大数据时代,数据加工和存储链条上的时空先后顺序已被模糊,可扩展的数据联系使得隐私的保护更加困难。过去传统的安全防护工作,是先扎好篱笆、筑好墙,等待“黑客”的攻击,我们虽然不知道下一个“黑客”是谁,但我们一定知道,它是通过寻求新的漏洞,从前面逐层进入。守方在明处,但相比攻方有明显的压倒性优势。而在大数据时代,任何人都可以是信息的提供者和维护者,这种由先天的结构性导入设计所带来的变化,你很难知道“它”从哪里进来,“哪里”才是前沿。这种变化,使得攻、防双方的力量对比的不对等性大大下降。

同时,由于这种不对等性的降低,在我们用数据挖掘和数据分析等大数据技术获取有价值信息的同时,“黑客”也可以利用这些大数据技术发起新的攻击。“黑客”会最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,大数据分析使“黑客”的攻击更加精准。此外,“黑客”可能会同时控制上百万台傀儡机,利用大数据发起僵尸网络攻击。

【解决方案】 面对大数据所带来新的安全问题,有针对性地更新安全防护手段,增加新型防护手段,混合生产数据和经营数据,多种业务流并行,增加特征标识建设内容,增强对数据资源的管理和控制。

挑战六:大数据网络的相对开放性使得安全加固策略的复杂性有所降低

在大数据环境下,数据的使用者同时也是数据的创造者和供给者,数据间的联系是可持续扩展的,数据集是可以无限延伸的,上述原因就决定了关于大数据的应用策略要有新的变化,并要求大数据网络更加开放。大数据要对复杂多样的数据存储内容做出快速处理,这就要求很多时候,安全管理的敏感度和复杂度不能定得太高。此外,大数据强调广泛的参与性,这将倒逼系统管理者调低许多策略的安全级别。

当然,大数据的大小也影响到安全控制措施能否正确地执行,升级速度无法跟上数据量非线性增长的步伐,就会暴露大数据安全防护的漏洞。

【解决方案】 使用更加开放的分布式部署方式,采用更加灵活、更易于扩充的信息基础设施,基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱“黑客”可以利用的空间。

大数据时代已经到来,大数据已经产生出巨大影响力,并对我们的社会经济活动带来深刻影响。充分利用大数据技术来挖掘信息的巨大价值,从而实现并形成强有力的竞争优势,必将是一种趋势。面对大数据时代的六种安全挑战,如果我们能够予以足够重视,采取相应措施,将可以起到未雨绸缪的作用。

以上是小编为大家分享的关于大数据安全的六大挑战的相关内容,更多信息可以关注环球青藤分享更多干货

阅读全文

与大数据灾难相关的资料

热点内容
速腾怎么插苹果12数据线 浏览:506
网络克隆客户端设置 浏览:858
炉石传说2016大数据 浏览:729
bios文件格式 浏览:683
看苏州APP怎么没有苏州四套 浏览:307
除了数据线笔记本与手机如何连接 浏览:575
苹果新机分几个 浏览:841
struts2resultjsp 浏览:403
七个星期五app怎么切换中文 浏览:342
华为路由器console登录密码设置 浏览:682
测试大数据包 浏览:801
新网站如何做好优化 浏览:703
晋江共享电动汽车app 浏览:997
90版本女机械师加点 浏览:527
微信支付普通网站 浏览:370
小学试卷的网站有哪些 浏览:338
我不想升级win10 浏览:858
linux无法重启 浏览:216
pdf格式文件怎么涂鸦 浏览:831
苹果手机6splus调节震动 浏览:501

友情链接