导航:首页 > 网络数据 > 大数据应用的误区

大数据应用的误区

发布时间:2022-01-21 01:20:37

『壹』 大数据存在哪些误区

1.大数据是新时代的新玩意


事实上,数据分析一点也不新。早从数百年前的启蒙时代,学者们便已开始遵循科学方法,一步步拆解事物形成背后的原因。科学家先观察,取得并分析数据,归纳出假说,然后再经过不断实证,逐渐形成定律。因此我们说的大数据,充其量只是科学方法的应用。


2.100TB以上才叫大数据


数据的大小,事实上没有明确的界线。更重要的,数据的大小,不一定有意义。数据大,也不代表一定能做出准确的预测─假设你拥有地球70亿人口的姓名、性别、生日、身高、体重、肤色、视力,以及他们的上网行为等种种数据,如果题目是要预测他们明年的收入分布,这个庞大的资料库,恐怕还是无法帮上你什么。所以数据在精不在多,重点是要达成的任务,不是储存的数量。


3.数据非常客观


采集数据的软硬件,是人为设计的,因此不可能做到绝对的客观。手机停留在某个画面,就代表你在欣赏这个内容吗?很难说,或许你只是在跟旁边的朋友聊天。对某个发文点赞,就代表你真心喜欢这则资讯吗?也很难说,说不定只是喜欢发文的人,或是手滑不小心按到。

『贰』 大数据有哪些误区

误区1、大数据学习技术驱动论:大数据的核心目标是数据驱动的智能化,要内解决具体的问题,学习之容前要明确问题,理解问题,所谓问题导向、目标导向,这个明确之后再研究和选择合适的技术加以应用,这样才有针对性。大数据学习应该是业务驱动

误区2、大数据学习重复造轮子:IT前沿领域的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让我们跨入了移动互联网时代,智能硬件开源将带领跨入物联网时代,以Hadoop和Spark为代表的大数据开源生态加速了去IOE(IBM、ORACLE、EMC)进程,倒逼传统IT巨头拥抱开源,谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加速人工智能技术的发展。所以大数据学习要善用开源

误区3、大数据学习求大求全:大数据技术庞大复杂,我们的精力很有限,短时间内很难掌握多个领域的大数据理论和技术,学习过程中应要把握好碎片化和系统性的关系。大数据学习要以点带面

『叁』 大数据技术的理解误区有哪些

1、大数据≠具有数据


许多人觉得具有数据,特别是具有许多的数据,这就是大数据了,这个是必定不对的,数据量大不是大数据,比方气象数据很大,如果仅仅用于气象预测,只需核算才能跟上就行,还远远没有发挥它的价值。可是保险公司根据气象大数据,来预测自然灾害以及调整与自然灾害相关的保险费率,它就演化出其它的商业价值,构成了大数据的商业环境。所以,大数据要运用,甚至相关,交换才能产生真实价值,构成DT时代特有的大数据商业。


2、大数据≠报表渠道


有许多企业,建立了自己业务的报表中心,或者是大屏展示中心,就马上宣告他们已经完成了大数据,这是远远不够的。报表尽管也是大数据的一种体现,可是真实的大数据业务,不是生成报表靠人来指挥,那是披着大数据外表的报表体系罢了。在大数据闭环体系中,万物都是数据产生者,也是数据运用者,他们经过自动化,智能化的闭环体系,自动学习,智能调整,从而提升全体的出产功率。


3、大数据≠核算渠道


之前看过一个报道,说某某金融机构建立了自己的大数据体系,后来细心一看,就是搭建了一个几百台机器的Hadoop集群罢了。大数据核算渠道,是大数据应用的技能基础,是大数据闭环中非常重要的一环,也是不可缺少的一环,可是,不能说有了核算渠道就有了大数据。比方我买了锅,不能说我已经有了菜,从锅到菜还缺原料(数据),刀具(加工工具),厨师(数据加工)才能终做出菜来。


4、大数据≠精准营销


见过许多创业公司在做大数据创业,细心一看,人家做的是根据大数据的推荐引擎、广告定投等等。这是大数据吗?他们做的是大数据的一种应用,可以说已经是大数据的一种了。只是大数据整个生态,不能经过这一种就来表达罢了。正如大象的耳朵是大象的一部分,可是,它不能代表大象。


关于大数据技术的理解误区有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

『肆』 大数据有哪些分析误区

1.数据样本量不够


我们在分析某些特定的业务或用户行为时,可能存在相对关注度较小,用户使用很少的情况,或者是在提取数据的过程中,增加了很多的限制条件或者多种用户行为或属性进行交叉后,得到很少的用户样本。


对于这种数量小的数据样本得出的结果很有可能会出错,但是样本量多少才算够多呢?这个没有一个特定的数值,通常只能结合具体的场景进行分析。


建议:可以把时间线拉长,或者把不重要的限定条件去掉,来获得足量的样本。


2.存在选择性偏见或者幸存者偏见


统计学的另一大理论基石,便是中心极限定理。


简单描述下就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。


通常我们会按照这个原理,用随机抽样的方式,通过对样本的分析来估计整体。当然得出的结论会比较接近真实情况的。可是有一个问题是,我们在采集数据的过程中是否是真的随机。


举个实际业务场景的例子,在软件应用升级期间,通过衡量用户的日活、人均播放量、人均播放时长等指标,来判断新版本的欢迎度是否优于老版本。听起来好像没有什么问题,其实这里就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户。这批用户在这些指标上,本来表现就是优于一般用户的,因此指标数据更高并不能说明更好。


3.混入脏数据


脏数据是指严重不合理或对于实际业务毫无意义的数据,通常是由程序bug、第三方攻击、网络传输异常等原因造成的。


这种数据的破坏性比较大,可能引发程序报错,对指标的准确度影响也较大。


关于大数据有哪些分析误区,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

『伍』 再谈大数据行业里的两大误区

再谈大数据行业里的两大误区

大数据这个词,恐怕是近两年IT界炒的最热的词汇之一了,各种论坛、会议,言必谈大数据,“大数据”这个词,在IT界已经成了某果一样的“街机”或者叫“街词”,不跟风说两句“大数据长,大数据短”都不好意思跟人说自己是搞IT的。从某种程度来讲,大数据这个“圈”太乱了,一点不比“贵圈”好。
先从概念上来说,大数据是什么?其实数据处理从人类诞生时期就有了,古人结绳记事就是基本的统计,统计自己吃了几顿饭打了几次猎等等;再往近说,皇帝每晚翻嫔妃的牌子也是数据处理,在翻牌子之前,要从一大堆牌子里分析“方便”、“热度高”、“新鲜度”等指标;更近的说,数据仓库早在大数据这个词出现前就已经成熟发展了好几十年了。所以说,大数据并不新鲜,只是某些技术如Hadoop、MR、Storm、Spark发展到一定阶段,顺应这些技术炒出来的概念,但是这些概念都基于一个基本的理念“开源”,这个理念是之前任何阶段都没有过,可以节省费用提高效率,所以大家才都往这个行业里扔火柴(话说现在很多人跟风乱吵,个人认为也不是坏事)。误区一:只有搞大数据技术开发的,才是真正“圈内人”。笔者曾经参加过若干会议,70%是偏技术的,在场的都是国内各个数据相关项目经理和技术带头人,大家讨论的话题都是在升级CDH版本的时候有什么问题,在处理Hive作业的时候哪种方式更好,在Storm、Kafka匹配时如何效率更高,在Spark应用时内存如何释放这些问题。参会者都一个态度:不懂大数据技术的人没资格评论大数据,您要不懂Hadoop 2.0中的资源配置,不懂Spark在内存的驻留时间调优,不懂Kafka采集就别参加这个会!对了,最近Google完全抛弃MR只用Dataflow了,您懂吗?不懂滚粗!在这里我想说,技术的进步都是由业务驱动的,某宝去了IOE才能叫大数据吗,我作为一个聋哑人按摩师用结绳记事完成了对于不同体型的人,用什么按摩手法进行全流程治疗,就不叫大数据分析了吗?技术发展到什么程度,只有一小部分是由科学家追求极致的精神驱动,大部分原因是因为业务发展到一定程度,要求技术必须做出进步才能达成目标的。所以,真正的大数据“圈内人”至少要包含以下几种人:一、业务运营人员。比如互联网的产品经理要求技术人员,必须在用户到达网站的时候就算出他今天的心情指数,而且要实现动态监测,这时候只能用Storm或者Spark来处理了;比如电信运营商要求做到实时营销,用户进入营业厅的时候,必须马上推送短信给用户,提示他本营业厅有一个特别适合他的相亲对象(呈现身高、三围、体重等指标),但是见面前要先购买4G手机;再比如病人来到银行开户,银行了解到用户最近1周曾经去医院门诊过两次,出国旅游过3次,带孩子游泳两次,马上客户经理就给客户推荐相关的银行保险+理财产品。这些业务人员,往往是驱动技术进步的核心原因。二、架构师。架构师有多么重要,当一个业务人员和一个工程师,一个说着业务语言,一个说着技术术语在那里讨论问题的时候,工程师往往想着用什么样的代码能马上让他闭嘴,而架构师往往会跳出来说“不,不能那样,你这样写只能解决一个问题并且会制造后续的若干问题,按照我这个方案来,可以解决后续的若干问题!”一个非技术企业的IT系统水平,往往有70%以上的标准掌握在架构设计人员手里,尽快很多优秀的架构师都是从工程师慢慢发展学习而来的,IT架构的重要性,很多企业都意识到了,这就是很多企业有CTO和CIO两个职位,同样重要!架构之美,当IT系统平稳运行的时候没人能感受到,但是在一个烟囱林立、架构混乱的环境中走过的人眼中,IT开发一定要架构现行,开发在后!三、投资人。老板,不用说了,老板给你吃穿,你给老板卖命,天生的基础资料提供者,老板说要有山便有了山,老板说要做实时数据处理分析,便有了Storm,老板说要做开源,便有了Hadoop,老板还说要做迭代挖掘,便有了Spark……四、科学家。他们是别人眼中的Geek,他们是别人眼中的高大上,他们是类似于霍金一样的神秘的早出晚归昼伏夜出的眼睛男女,他们是驱动世界技术进步的核心力量。除了世界顶级的IT公司(往往世界技术方向掌握在他们手中),其他公司一般需要1-2个科学家足以,他们是真正投身于科学的人,不要让他们去考虑业务场景,不要让他们去考虑业务流程,不要让他们去计算成本,不要让他们去考虑项目进度,他们唯一需要考虑的就是如何在某个指标上击败对手,在某个指标上提高0.1%已经让他们可以连续奋战,不眠不休,让我们都为这些科学家喝彩和欢呼吧。在中国,我认为真正的大数据科学家不超过百人……五、工程师。工程师是这样一群可爱的人,他们年轻,冲动,有理想,又被人尊称为“屌丝”“键盘党”,他们孜孜不倦的为自己的理想而拼搏,每次自己取得一点点进步的时候,都在考虑是不是地铁口的鸡蛋灌饼又涨了五毛钱。他们敏感,自负,从来不屑于和业务人员去争论。工程师和科学家的不同点在于,工程师需要频繁改动代码,频繁测试程序,频繁上线,但是最后的系统是由若干工程师的代码组合起来的。每个自负的工程师看到系统的历史代码都会鄙视的发出一声“哼,这垃圾代码”,之后便投入到被后人继续鄙视的代码编写工作中去。六、跟风者。他们中有些是培训师,有些是杀马特洗剪吹,有些是煤老板有些是失足少女。他们的特点就是炒,和炒房者唯一不同的就是,他们不用付出金钱,他们认为只要和数据沾边就叫大数据,他们有些人甚至从来没碰过IT系统,他们是浑水摸鱼、滥竽充数的高手,他们是被前几种人鄙视的隐形人。不过我想说,欢迎来炒,一个行业炒的越凶,真正有价值的人就更能发挥自己的作用。误区二:只有大数据才能拯救世界大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(Online Analytical System),从技术角度来说,包含我总结的两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿实时数据流处理(Storm、内存数据库等)。在此基础上,部分场景又发现MR框架或实时框架不能很好的满足近线、迭代的挖掘需要,故又产生了目前非常火的基于内存数据处理Spark框架。很多企业目前的大数据框架是,一方面以Hadoop 2.0之上的Hive、Pig框架处理底层的数据加工和处理,把按照业务逻辑处理完的数据直接送入到应用数据库中;另一方面以Storm流处理引擎处理实时的数据,根据业务营销的规则触发相应的营销场景。同时,用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。以上描述可以看出,大数据说白了就是还没有进入真正的交易系统,没有在OLTP(Online Transaction system)方面做出太大的贡献。至于很多文章把大数据和物联网、泛在网、智慧城市都联系在一起,我认为大数据不过是条件之一,其余的OLTP系统是否具备,物理网络甚至组织架构都是重要因素。最后还想说,大数据处理技术,再炫如Google的Dataflow或成熟如Hadoop 2.0、数据仓库、Storm等,本质上都是数据加工工具,对于很多工程师来说,只需要把数据处理流程搞清楚就可以了,在这个平台上可以用固定的模版和脚本进行数据加工已经足够。毕竟数据的价值70%以上是对业务应用而言的,一个炫词对于业务如果没有帮助,终将只是屠龙之术。任何技术、IT架构都要符合业务规划、符合业务发展的要求,否则技术只会妨碍业务和生产力的发展。
随着时代变迁,大浪淘沙,作为数据行业的一员,我们每个人都在不同的角色之间转换,今天你可能是科学家,明天就会变成架构师,今天的工程师也会变成几年后的科学家,部分人还终将步入跟风者的行列。误区三:数据量特别大才叫大数据在“数据界”存在这样有一波人,他们认为“只有Peta级以上的才叫大数据,甚至到了Zeta以上才叫大数据,目前还没有到真正的大数据时代!”,每次听到这样的话,我就知道这些人受IOE某巨头的4V理论中的“容量”影响太巨大了。对此,我想说的第一句话是“尽信书不如无书,尽信巨头不如去IOE”,去IOE不只是要从硬件做起,还要从思想上敢于挑战巨头做起,尽管很多IT界的经典理论都是传统巨头提出的,但是随着挑战者的出现,萌发了新的思想和技术后,传统巨头会被慢慢颠覆,这也是我们人类前进向前的一个重要因素。如果我们还停留在迷信巨头的时代,如此刻板教条的去追求一个概念,那么就不会有现在的Hadoop,不会有现在的Spark,不会有现在的特斯拉,不会有机器学习人工智能,更不会有未来的第N次工业革命。首先我想强调,大数据技术真的不是一个新鲜词,在之前的文章中我已经说过,大数据的本质还是数据,数据这个行业已经发展了若干年,而数据量的规模永远是超出该时代的想象的,比如十几年前,一张软盘的数据量也就1.44M,当时的数据如果达到1T都让旁人咂舌。那么按数据量的标准,当时如果有人收集了1T数据就已经进入大数据时代了吗?显然不是!所以我想说,数据量的大小并不是衡量大数据的标准,如果按数据量去判断是否大数据的话,那么“大数据”这个词真的是一个伪命题,就如同“老虎比如是老的,小伙必须是小的,巨头必须是脑袋大的,飞人必须是长翅膀的”这种纯粹字面意思去定义的话题一样。那么再回过来说,大数据的概念是什么?首先,大数据是一个完整的生态体系,从数据的产生、采集、加工、汇总、展现、挖掘、推送等方面形成了一个闭环的价值链,并且通过每个环节的多种技术处理后,为所在业务场景提供有价值的应用和服务。其次,大数据的核心是什么?一方面是开源,一方面是节流,目前大数据技术的核心目标都是通过低成本的技术更好的满足对数据的需求(尤其是处理近年来更多的非结构化数据),并在在满足需求的基础上尽可能多的为企业节省投资。说一千道一万,大数据的核心理念还是满足应用需求,有明确目标的技术叫生产力,没有业务目标的技术叫“浪费生命力”。误区四:为了大数据而大数据这个误区我认为是目前最严重的。在部分企业中,追求技术一定要最新、最好、最炫,一定要拿到国际先进、世界一流才行。所有的企业,不分行业不分性质不分地域不分年代,一律高喊“赶超BAT,大数据助力**企业达到**目标”,接下来就是先去IOE,然后投资买集群,把之前的各种高性能小型机大型机都不用了,之前买的O记授权全部停了,之前的几十年投资一夜之间作废,又投入了更多的资源去追赶“大数据”。同学们,这种劳民伤财的事情相信大家每天都会听到或者亲眼看到,很多企业不计成本就是为了博领导一笑,这得是多么大的误区啊。对此我想说:第一,从技术上来说,比如BAT或者很多互联网企业去追求大数据,是因为业务发展的需要。任何一个互联网企业一出生就是为了流量和点击而活着,这就意味这大量的非结构化数据需要进行快速处理,这时候就决定了互联网企业只能通过一些并发手段去分解底层的数据,然后进行快速加工,并满足其服务用户和市场的需要。互联网企业的业务流程和业务模型就决定了必须得采用大数据技术。反之,很多企业根本用不着这些技术,有些企业简单的一两个Excel文件里面做几个公式就可以满足它的发展,而且数据的周期还是按月处理的,根本不需要运用这些技术。第二,从投资上来说,互联网企业出生都是平民,根本买不起大型设备,就算一夜暴富后,也没有一个传统的小型机大型机可以更好的满足它们的发展,故只能另辟蹊径创造价值链和标准了,在之前的低投资、轻量级架构上,不断进行小量的线性硬件投资满足业务的发展。反倒是一些传统企业,甚至是巨无霸,其投资计划已经在一年前明确,而且在原来的基础上投资会更有ROI(投资回报率),现在反倒为了追求大数据的口号,牺牲了之前的大量投资,除了“得不偿失”,剩下的只能是满地的节操了。大数据技术甚至任何一种技术都是为了满足特定的业务目标而生的,在具备了明确的业务目的后,顺势设计符合自身业务架构的技术架构,才是一种科学的健康的发展观。如果您是一位老板、CEO或者投资人,千万要明白,大数据技术对于企业来说,有时候像水,而企业的业务目标就是那艘船,“水能载舟,亦能覆舟”。随着生产关系的不断调整,又会出现若干轮生产力的不断进步,大数据之后的技术也会日新月异的进步着,比如现在开始潮流涌现的“机器学习、深度学习”等诸多的人工智能方面的技术,也出现了比如“小数据”、“微数据”等更细方向技术的细分,在技术的洪流到来时,只要保持清晰的以满足业务为导向的头脑,根据自身的业务需要设计自身的技术架构,就不会被各种流派,各种概念淹没。

『陆』 企业应用大数据技术存在误区介绍

目前大数据很火,但是实际情况并不像大数据供应商说的那样,企业采用了大数据就会产生商机。目前企业对于大数据有三个认识误区,分别是大数据技术会自行识别出商机、就是掌握的数据越多,自动创造出的价值也越多、好的数据科学家会为你发现价值,下面就来进行一下企业应用大数据技术存在误区介绍。

『柒』 大数据中存在哪些误区

1.大数据是新时代的新玩意



事实上,数据分析一点也不新。早从数百年前的启蒙时代,学者们便已开始遵循科学方法,一步步拆解事物形成背后的原因。科学家先观察,取得并分析数据,归纳出假说,然后再经过不断实证,逐渐形成定律。因此我们说的大数据,充其量只是科学方法的应用。



2.100TB以上才叫大数据



数据的大小,事实上没有明确的界线。更重要的,数据的大小,不一定有意义。数据大,也不代表一定能做出准确的预测─假设你拥有地球70亿人口的姓名、性别、生日、身高、体重、肤色、视力,以及他们的上网行为等种种数据,如果题目是要预测他们明年的收入分布,这个庞大的资料库,恐怕还是无法帮上你什么。所以数据在精不在多,重点是要达成的任务,不是储存的数量。



3.数据非常客观



采集数据的软硬件,是人为设计的,因此不可能做到绝对的客观。手机停留在某个画面,就代表你在欣赏这个内容吗?很难说,或许你只是在跟旁边的朋友聊天。对某个发文点赞,就代表你真心喜欢这则资讯吗?也很难说,说不定只是喜欢发文的人,或是手滑不小心按到。



4.数据可以告诉你不知道的内幕



就像字面显现的,数据只能告诉你不知道的数据。但它究竟代表什么样的内幕,必须要靠归纳者自行去解读。举例来说,分析你的App使用者资料后,发现21-30岁女性族群占比最大,这可能代表着你的App对这种人最有吸引力,但也可能代表当初推广团队在发广告时,比较针对这样的族群。究竟事实是什么?往往需要更进一步的综合比较、实验分析,才能逼近。



5.大数据是资讯部门的问题



大数据的收集与储存,的确可以归类为资讯部门的业务。但定义该收集什么,如何收集,收集后该如何应用,绝对是业务主导部门该负责的。要求IT部门把大数据做好,就好像要求财务部门提升公司获利一样,是本末倒置的。



关于大数据中存在哪些误区,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

『捌』 关于大数据的误区,你中了几个

误区1:大数据无处不在


目前,大数据技术和服务确实是使用率创历史新高的行业的关注焦点。但是,Gartner的大数据事实和数据显示,在所有组织中,只有73%的组织正在计划和投资大数据。但是,它们仍处于大数据采用的萌芽阶段。


误区2:大数据都与大小有关


大数据的特点是5V——Volume(体积)、Velocity(速度),Variety(品种),Veracity(准确性)和Value(值)。虽然处理大量数据是大数据的主要特征之一, 然而数量仅仅是大数据的主要定义特征。此外,数据的其他功能同样重要。


误区3:大数据可以预测业务未来的一切


分析可以使用大数据预测趋势,但不是推动业务发展的数据。企业有许多因素,如经济,人力资源,技术等等。因此,当涉及到预测业务的未来时,您无法通过数据预测某些事情。


误区4:大数据意味着大预算,而且适用于大公司


我们已经看到像跨国公司和政府机构这样的组织投入巨资建立大规模数据中心和高端技术来实施大数据。不仅如此,聘用熟练的大数据专业人员和数据科学家也是一件非常昂贵的事情,因为他们的需求因市场资源紧张而很高。


误区5:机器学习概念与大数据有关


机器学习经常处理大数据。但是,机器学习的基本概念是使用这些数据来建模底层流程以便更好地利用。此外,机器学习完全基于机器学习算法,该算法可以解析数据集,然后应用通过它学习的内容来做出有意义的决策。


关于大数据的误区,该如何下手的内容,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

『玖』 大数据误区有哪些

1、大数据误区——大数据≠拥有数据


很多人认为拥有数据,尤其是拥有大量数据,就是大数据。这绝对不是真的。大量的数据并不是大数据。但是,保险公司可以利用气象大数据预测自然灾害,调整自然灾害相关的保险费率,从而发展其他商业价值,形成大数据的商业环境。因此,利用大数据,甚至关联、交流,都能产生真正的价值,形成DT时代独特的大数据业务。


2、大数据误区——大数据≠报告平台


有很多公司建立了自己的报告中心,或者大屏幕演示中心,然后马上宣布他们已经实现了大数据,但这还不够。虽然报告也是大数据的一种形式,但真正的大数据业务并不是生成报告供人们指导,而是隐藏在大数据表象下的一套报告系统。在大数据的闭环系统中,一切都是数据的生产者和用户。通过自动智能闭环系统、自动学习和智能调节,提高了整体生产效率。


3、大数据误区——大数据≠计算平台


我看过一篇报道,是关于一家金融机构建立了自己的大数据系统。稍后进一步观察会发现,它已经设置了一个拥有数百台机器的Hadoop集群。大数据计算平台作为大数据应用的技术基础,是大数据闭环中非常重要和不可缺少的一部分。但是,不能说有了计算平台就有了大数据。例如,如果我买了一个锅,我不能说我有一个盘子。从锅到菜,我还需要原材料(数据),工具(加工工具)和厨师(数据处理)来完成最后的制作。


4、大数据误区——大数据≠精准营销


我见过很多创业公司在做大数据。如果你仔细观察,你会发现他们所做的是一个基于大数据、广告投资等的推荐引擎。这是大数据吗?他们所做的就是大数据的应用,可以说是大数据的一种。只是大数据的整个生态系统不能这样表达。就像大象的耳朵是大象的一部分一样,它们并不代表大象。


有哪些大数据误区?想做好大数据工程师就要注意这些,当一个新的数据洞察或者大数据应用出现的时候,很多人认为拥有数据,尤其是拥有大量数据,就是大数据。这绝对不是真的,你能处理好吗?如果您还担心自己入门不顺利,可以点击本站其他文章进行学习。

『拾』 揭露大数据五大误区

揭露大数据五大误区
在如此多关于大数据的炒作下,IT管理者很难知道该如何挖掘大数据的潜力。Gartner指出关于大数据的五大误区,以帮助IT管理者制定他们的信息基础设施战略。
Gartner研究总监Alexander Linden表示:“大数据提供了巨大的机会,但也带来了更大的挑战。海量的数据并没有解决数据固有的问题。IT管理者需要破除各种炒作,根据已知的事实和业务驱动的结果指导行动。”
误区1:在采用大数据方面其他人都比我超前
人们对于大数据技术和服务的兴趣达到了前所未有的高度,有73%的受访企业已经投资或者计划投资大数据。但是大多数企业机构仍然在采用大数据的初期阶段,只有13%的受访者已经部署了大数据解决方案(见图1)。
图1、2013年和2014年大数据采用的阶段
注释:Gartner向每位受访者提问,“以下哪5个阶段可以最好地描述你企业机构采用大数据的阶段?”
2014年n = 302,2013年n = 720。来源:Gartner(2014年9月)
企业结构面临最大的挑战是确定如何从大数据中获取价值,以及确定应该从哪里开始。许多企业机构卡在试点阶段,因为他们没有将技术与业务流程或者具体的使用实例联系起来。
误区2:我们有这么多的数据,我们并不需要担心一个小小的数据缺陷
IT管理者认为,目前企业管理如此多的数据使得单个的数据质量问题变得微不足道,因为“大数据法则”。这个观点认为,单个数据质量缺陷并不影响整个数据分析的结果,因为每个缺陷只是企业机构内海量数据非常小的一部分。
Gartner副总裁Ted Friedman认为:“事实上,尽管单个缺陷对于整个数据集的影响要比数据量少的时候小一些,但是因为数据更多了所有缺陷也就更多了。因此,糟糕的数据质量对于整个数据集的影响还是一样的。除此之外企业机构在大数据背景下使用的大多数数据都是来自于外部的,或者是未知结构和未知来源的。这意味着出现数据质量问题的可能性要比以前更高,因此数据质量实际上在大数据背景下变得更为重要了。”
误区3:大数据继续将消除对大数据整合的需求
一般观点认为,大数据技术——尤其是通过在用模式方法处理信息的潜力——将使得企业机构要使用多种数据模型来读取相同的数据源。很多人相信这种灵活性将让终端用户确定如何按需地将各种数据集进行转译。他们认为,这也将提供满足单个用户需求的数据访问。
在现实中,大多数信息用户重度依赖于“在写模式”,在这种场景下数据被描述、内容被预先描述,因此关于数据完整性以及与场景的相关性已经达成了统一。
误区4:为高级分析使用数据仓库是没有意义的
很多信息管理的领导者认为,构建一个数据仓库是消耗时间且没有意义的,因为高级分析使用新型的数据而不仅仅是数据仓库。
现实是,很多高级分析项目在分析过程中使用的正是数据仓库。在其他一些情况下,信息管理人必须提炼作为大数据一部分的新数据类型,使其适合于分析。他们需要确定哪些数据是相关的,如何聚合这些数据,以及数据质量的等级,而且这种数据提炼可能是发生在很多地方的,不仅仅是数据库。
误区5:数据湖将取代数据仓库
很多厂商将数据湖定义为用于分析各种来源的原始格式数据的企业数据管理平台。
现实是,厂商将数据湖定位为数据仓库的替代品或者作为客户分析技术设施关键要素是容易引发误导的。数据湖的基础技术缺乏已有数据仓库技术功能特性的成熟型和广度。Gartner研究总监Nick Heudecker表示:“数据仓库已经具有支持整个组织上下各种用户的能力。信息管理者没必要等着数据湖迎头赶上。”

阅读全文

与大数据应用的误区相关的资料

热点内容
老电影怀旧电影全剧 浏览:493
期货数据统计在哪里来 浏览:183
电影里的女人喂宝宝 浏览:141
韩国女社长劈腿电影 浏览:529
阿根廷十大艳情片 浏览:2
数据线长度怎么调整 浏览:132
2345好压支持win10吗 浏览:845
日本和韩国好看的推理片 浏览:157
卷屏app怎么用 浏览:35
手机qq群里昵称怎么改名字 浏览:27
韩国电影男的通过楼上洞偷窥女的跳舞 浏览:537
日韩欧美推理片电影 浏览:31
给男主播刷了50万小说 浏览:831
三国之巫族炼体功法 浏览:993
星国医app在哪里看 浏览:367
好看的韩国爱情电影爱情推理片 浏览:325
熙和宇 浏览:833
韩国伦理片演员李彩 浏览:994
偷情电影欧美 浏览:450
登录功能需要与数据库交互么 浏览:309

友情链接