大数据考察_大数据的考察维度有哪些

㈠如何考察一个是否具有大数据的思维

所谓大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助客户决策更积极目的的资讯；维克托在《大数据时代》中指出，大数据时代的来临使人类第一次有机会和条件，在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据，获取过去不可能获取的知识。大数据有三个不同于先前的理念——“关联思考、全体数据、混杂思维”，即大数据不拘泥因果思考而重视关联思考，它也不侧重随机个案而是注意全体数据，其思维也是看重混杂思维而不看重精准思维。当前对干部信息的收集和评价重样本、重来源、重精确度，渠道比较单一，信息量少，得出的结果往往不能全面的反映出一个干部的情况，导致干部“带病提拔”或是不胜任本职工作的情况偶有发生。个人认为，可以运用大数据理念和现代信息化手段，建立全方位考察考核干部的信息收集和评价使用体系，也就是因果思考与关联思考要并驾齐驱，对随机样本的关注与对全体数据的发现使用要统筹兼顾，既要习惯用精细思维也要习惯用混沌思维。如今不管是在学术界还是IT圈，人们一直都在讨论大数据，然而，大数据分析、大数据营销等等也才刚刚起步，为什么说大数据对我们很重要呢？企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如，通过结合大数据和高性能的分析，下面这些对企业有益的情况都可能会发生:及时解析故障、问题和缺陷的根源，每年可能为企业节省数十亿美元。为成千上万的快递车辆规划实时交通路线，躲避拥堵。分析所有SKU，以利润最大化为目标来定价和清理库存。根据客户的购买习惯，为其推送他可能感兴趣的优惠信息。从大量客户中快速识别出金牌客户。使用点击流分析和数据挖掘来规避欺诈行为。总之，大数据对企业精细运营起到的价值是非常巨大的，可以让企业在社交平台上的运营更加完善，尽量让企业能有一个理想的口碑，并对一些不良的言论做舆情监测等等，然后根据数据进行产品改进，并且利用大数据还能更好的驱动用户体验，促进企业运营目标朝着正确的方向前进，这都是大数据为企业带来的价值。最早提出大数据概念的学科是天文学和基因学，这两个学科从诞生之日起就依赖于基于海量数据的分析方法。大数据可以说是计算机和互联网结合的产物，计算机实现了数据的数字化;互联网实现了数据的网络化;两者结合才赋予了大数据生命力!随着互联网如同空气、水、电一样无处不在地渗透入我们的工作和生活，加上移动互联网、物联网、可穿戴联网设备的普及，新的数据正在以指数级别的加速度产生。据说目前世界上90%的数据是互联网出现以后迅速产生的。不过，抛开数据的海量化生产和存储这种表面现象，我们更加要关注的是由数据量变带来的质变，这种质变表现在以下3个方面：大数据时代带给我们的是一种全新的思维方式，思维方式的改变在下一代成为社会生产中流砥柱的时候就会带来产业的颠覆性变革!- 重视数据的复杂性，弱化精确性;- 关注数据的相关性，而非因果关系。历来的商业变革都是由思维方式的转变开始的，旧的经济体制和传统的商业理念面临新的商业思维逻辑的时候，如果大脑不能与时俱进，吸收并转变为顺应潮流的新思维，通过新思维重新组织企业组织的战略、结构、文化和各种策略，那么貌似强大的体魄反而变成了企业前进的累赘。这种新思维颠覆巨头的案例最先发生在信息技术的传统领域，然后渗透到传统的商业领域：黑莓(Blackberry)、摩托罗拉、诺基亚、柯达、雅虎。。。案例比比皆是!当然，这些企业的没落并不是因为没有数据思维，但他们都是被新互联网思维淘汰的昔日巨人。数据思维是最新的思想，其影响力还没有发展到导致巨头轰然倒塌。但是，如果不给予足够的重视，下一波没落王国的名单中，可能就会有你!大数据时代，我们需要更加全面的数据来提高分析(预测)的准确度，因此我们就需要更多廉价、便捷、自动的数据生产工具。除了我们在互联网虚拟世界使用浏览器、软件有意或者无意留下的各种个人信息数据之外，我们正在用手机、智能手表、智能手环、智能项链等各种可穿戴数码产品生产数据;我们家里的路由器、电视机、空调、冰箱、饮水机、吸尘器、智能玩具等也开始越来越智能并且具备了联网功能，这些家用电器在更好地服务我们的同时，也在生产大量的数据;甚至我们出去逛街，商户的路由器，运营商的WLAN和3G，无处不在的摄像头电子眼，百货大楼的自助屏幕，银行的ATM，加油站以及遍布各个便利店的刷卡机都在收集和生产数据。在互联网领域，我们喜欢说入口这个词，入口对应的直接意义是流量，而流量在互联网领域就意味着金钱，这种流量变现可能是广告，可能是游戏，也可能是电商。在大数据时代，入口这个词还有更深刻的意义，那就是数据生产的源头，用户通过某个APP或者硬件产品满足某种需求的同事，也会留下一系列相关的数据，这些数据的合理使用可以让拥有这部分数据的企业获得更大的商业利益!所以，在大数据时代，意识到数据也是资产的公司都已经开始在各个数据生产的源头进行布局，可能是一个解决刚兴需求的WEB网站，也可能是一个单纯的工具APP，还可能是一个可穿戴的数码产品!有了数据资产，就要通过分析来挖掘资产的价值，然后变现为用户价值、股东价值甚至社会价值。大数据分析的核心目的就是预测，在海量数据的基础上，通过机器学习相关的各种技术和数学建模来预测事情发生的可能性并采取相应措施。预测股价、预测机票价格、预测流感等等。预测事情发生的可能性继续往下延伸，就可以通过适当的干预，来引导事情向着期望的方向发展。比如亚马逊和所有的电商一样，都会基于对用户的喜好及消费能力分析来推荐商品，引导用户提高消费金额;Google等互联网巨头也会通过各种技术手段来试图向不同的用户展现不同的广告，并称之为精准营销，由此来提高点击率(公司收入);网游公司也会在运营工程中通过玩家行为数据的分析来及时调整游戏关卡及计费点等设计。

㈡大数据背后的技术、商业和社会维度

大数据背后的技术、商业和社会维度

要想考察大数据最好同时考察大数据背后的技术、商业和社会维度。从发展成熟度来看，技术维度走的最远、商业维度有所发展但不算全面成熟，社会维度发展最差。所以虽然已经谈了很久大数据，但除了孕育出大数据自身的几个领域比如搜索等，其它领域却并没有从大数据中获得可见的收益。大多时候人们还是处在觉得这里肯定有金子，但需要更多的耐心的状态。这篇文章则尝试对大数据本身的特征做点挖掘，对未来的发展趋势做点预测。

大数据上的深度和广度

如果把大数据对应到海量的数据，那它就是非常含糊的概念，相当于变成信息的同义词，显然也就很难回答信息到底能干什么这样的问题。

这时候为了推进思考通常需要先分类。如果把时间空间作为最基本的视角，那首先要区分的就是大数据的深度和广度。从时间的角度看大数据是完整的历史，从空间的角度看大数据是全球活动的痕迹。前者可以看成一种深度，后者可以看成一种广度，不同的场景对深度和广度的侧重有所不同。

对于有些垂直的行业，比如医疗，大数据的深度更重要，所有的历史都可以在数据上得到找到之后，人们就可以更好的认知并优化相应的行业。

对社会而言，很多时候广度则更重要，具体到某个场景我们只有一鳞半爪的消息，但当这种信息足够多，范围足够广，就有可能描述出相对及时的全貌。经常举的Google预测传染病的例子依赖的就是这种广度。

这点决定了大数据的应用发展趋势，在深度重要的地方，公司这类组织需要成为主体，困难是如何跨越数据所有权的边界。对于医院而言，显然把所有治疗案例数据化并共享是有好处的，但如果只有一个医院这么做，那对这一家医院而言更多的可能是隐私上反弹所带来的坏处。

在广度重要的地方，虽然在搜索这样的领域里公司也可以受益，但真正可以从大数据全面受益的机构其实是政府。数据越广，其所描述的主体就越大，而如果描述的是整个社会，那显然应该是社会的主要责任人会从中受益。这是个常识问题，就和看病的时候不会吃了医生给别人开的药自己反倒好了差不多。有的时候央视会播放网络做的春节期间人员流动图，这件事情也正好可以从侧面说明这问题。这种人员流动地图对能做出地图的人公司帮助远没有对政府的帮助大。

深度和广度两个方向对数据的要求不同，前者需要更为详尽、有质量的数据源后者则对此要求不高，但两者在应用的时候都会面临付出回报不对等问题。大数据倾向于描述整体，而有能力收集或处理大数据的往往是个体，个体的回报在整体的提升中并不容易获得清晰体现。

现在大数据发展的瓶颈不是技术，而是背后所需要的分配关系的建立。这种关系理不顺，数据就会停留在孤岛层面，每个组织都有自己的东西，并把它命名为“大数据”。而为了理顺这种关系则要回到一个非常经典的问题，“公地”到底可不可以建立。

数据公地的设想

大数据其实有点像公地，在经济学里非常出名的一个论点是公地悲剧。《美国经济史》举了一个非常易懂的例子来说什么是公地悲剧：

这些经济推理命题有利于解释集体所有制和产出的共享(平分或固定份额)如何导致“免费搭车者”问题。为了说明这一点，考虑共享土地所有权，且共同生产了100蒲式耳玉米的10个工人，平均每人消费10蒲式耳玉米。假设一个工人开始偷懒并将其劳动努力减半，从而导致产出减少5蒲式耳。由于产出共享制度的安排，偷懒者的消费量和其它工人一样，现在都是9.5蒲式耳。尽管他的努力已经下降了50%，但他的消费量只下降了5%。偷懒者是在搭他人劳动的便车。…

这背后有非常深刻的人性问题，即使我们可以通过努力协作创造更多的财富，个人也可以从中分享更多，但在群体里明显的个人倾向则是自己工作更少但分享更多。这与囚徒困境其实是相通的。

基于实物的世界里眼下看不到彻底解决这问题的方法，只能依赖于某种被大家基本认可的分配秩序，比如：以前的血统现在的物竞天择，但基于比特的数字财富眼下看却有解决这问题的可能。

基于比特的数据与实物最大的区别是数据并非是你拿走我就没有的东西，并且硬件的价格在飞速下降，开源又使数据的访问工具基本免费。这几者叠加在一起，使数据公地成为可能。

如果大家更在意我拿到的东西是不是绝对值变大了那数据公地的形成可能性就大些，因为如果存在数据公地，那每个人(企业)一定收获更多，但如果大家更在意我是不是比你多，那数据公地的建设就会多很多障碍，因为公地其实是让相关人员站到同样的竞争起点上。

大数据整合营销专家罗百辉认为，大数据的问题，在数据的使用上是技术问题，但在数据源上其实是社会经济问题，后者更难，所以大数据应用的发展不取决于技术的发展而取决于社会经济方式的变革速度。在有限的领域里，比如搜索、电商、云计算，技术已经得到比较充分的发展，眼下来看谁付出谁受益的问题是把小数据变成大数据过程中最主要的问题。

大数据的路往那里走?

数据的内在发展动力是数据越全价值越大，其实这也是一种网络效应，这种内在动力导致宏观来看数据所有权的发展只有两种趋势：

一种是像现在移动端一样，每个人都有自己的私有数据源，接下来开始你死我活的竞争，最终有一家活下来，这也可以达成数据统一的终极目标。

另一种则是在竞争中开始联合，建设上面所说的数据公地。

如前所述行业数据和全社会的数据性质上差别很大所以要分开来探讨。

对于行业数据而言，竞争对手间彼此的坦诚合作除非有极为特别的人物出现，否则是不太可能的。这种情况下最简单的办法是引入第三方。

比如说每家运营商都握有几乎所有网民的行动数据，但要想让运营商彼此间开诚布公的合作把这些数据整合在一起创造某种价值，这就很难。这时候如果有第三方介入，制定好利益分配方案那就是可能的。

如果这点可以达成，那唯一的关键点就是相应的商业模式是不是可以超越数据处理的成本。这点必须强调下的是，大数据的价值密度是很稀疏的，很多东西有价值但并不一定值得做，视频网站之所以赚不到钱一个关键原因就是带宽和存储的成本比较高，而对大数据而言商业模式找不好，情形可能比视频网站还差。挖矿的成本怎么也要小于挖矿所得挖矿才有价值。

上述问题在行业数据里可能问题还不是太大，一般来讲行业数据的价值密度终究会大一些，并且因为相对比较垂直，总量终究有限制。所以大数据的行业应用比较容易发展。

但对社会性的数据，这在很多时候就是个问题。我们都知道样本的全面性比数据的多少更有价值，但是如果多是确保样本全面性的唯一手段的话，那就意味必须有全的数据做一件事情才有意义。

社会化的数据有两种应用方向，一种就是企业可以搞定的比如Google，一种则是属于社会层面，很难单独属于某个企业的比如智慧城市相关的人的活动数据。后者则需要上面所说的数据公地来做支撑。

从数据的视角来看，现在有两种数据存放形式：一种是Google这样的企业拥有整个社会某个横截面上的全部数据，这应该是种特例，并且数据会局限在公开信息;一种则是被割裂的各种与人行为相关的数据，比如购物相关的在电商，与人相关的在社交网络和IM，线下服务相关的则在O2O企业，铁路相关的在12306等。Google这种拥有全的数据，但并不拥有人的行为，所以说Google这种企业相当于拥有整个社会的一个横截面的数据。而所有其它企业则只拥有某个垂直领域的数据。

如果依赖于企业做这种数据统一的尝试，在前者就会有投资200亿做O2O类的举动，因为这会补全数据，在后者就会有做电商的想做社交，做社交的想做电商这类事发生。类似的故事还可以在终端上发生，所有这些行为的终极目标都是一家企业搞定所有这些事情，但这是不可能的，这种不可能还不单是经济原因。而数据不能打通，那就只能在割裂的数据上做自以为是大数据的大数据。

所以说这骨子里是数据公地究竟能不能建立的问题，而要想建立数据公地，那至少要解决谁来做的问题，对此开源给出的启示有两点非常关键：第一这不能是个盈利组织;第二这要能获得众多企业的支持。因为数据会牵涉隐私，所以同开源相比那就一定还要有比较清晰的界定数据使用的规则。

在有一种切实的办法解决数据所有和使用权之前，大数据的应用应该还都是局部的。因为它的深度应用牵涉社会很多部分的彼此协调，所以这个过程可能是非常漫长的。这里面有意思的事情是，大数据的出现直接推动了机器智能的发展，而机器智能产生影响的速度可能会远快于大数据本身。

以上是小编为大家分享的关于大数据背后的技术、商业和社会维度的相关内容，更多信息可以关注环球青藤分享更多干货

㈢大专生去培训大数据可以吗

当然能了，只要理论讲明白就行。马哥教育的理论很透，值得学习，当作参考书也不错，迫不及待的想看了。

㈣大数据培训在哪里哪个好

大数据培训在一线城市相对来说是比较好的，因为这里不管是从开始培训学习的教学质量方面来说，还是从后期的就业相关方面讲相比较二三线城的大数据培训都是具有一定优势的。所以，在选择学习大数据技术的时候大家在条件容许的情况下，建议最好是选择北上广这样的一线城的大数据培训机构进行学习。
不过，提醒大家一下北上广这样的一线城市的培训机构也并不都是好的，其中也有比较差的机构存在，知识在整体的教学方面比较好。所以，在这学习也要学会去选择好的专业的大数据培训机构才行。
1、口碑
相信大家都很清楚，如何了解这个大数据培训机构的口碑怎么样，说难不难，说容易也不太容易。最好是有圈子内的朋友去了解而不要过分相信网络上的一面之词。
2、面授
面授课程相对于其它一些大数据培训的授课方式来说，学员需要到大数据培训班进行线下脱产班进行学习，而且学习强度相对来说是比较大的，相对来说效果也是最显著的。
3、师资
选择大数据培训老师时一定要选择那些有以下项目开发经验的老师，这样的还老师对于大数据的技术理解会更加深入，对于项目开发也有大量的经验。

㈤大数据学习有什么要求

大数据专业专业课程难度大，有本科学历要求！

大数据学习内容主要有：

①内JavaSE核心技术容；

②Hadoop平台核心技术、Hive开发、HBase开发；

③Spark相关技术、Scala基本编程；

④掌握Python基本使用、核心库的使用、Python爬虫、简单数据分析；理解Python机器学习；

⑤大数据项目开发实战，大数据系统管理优化等。

你可以考察对比一下南京课工场、北大青鸟、中博软件学院等开设有大数据专业的学校。祝你学有所成，望采纳。

北大青鸟中博软件学院大数据课堂实拍

㈥大数据面试要准备哪些

一、大数据面试要准备一些应试须知：
1、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”,直到你的自我介绍完毕,面试官也没有记住你的名字,如果后续的自我介绍中没有突出的表现,那么这样的自我介绍注定是失败的。
2、告诉面试官和应聘职位相关的工作经历。在自我介绍自己的工作经历时,一定要注意哪些经历是和应聘职位相关,对应聘有帮助,哪些是毫无意义的。例如应聘技术人员的职位,我们主要讲从事本职工作的经历,如果有从事其他行业的经历,比如从事过销售,组织,管理工作的,也可以略微提一下,往往会对应聘起到一定的帮助。
3、在面试官面前展现性格阳光的一面。性格也是面试官需要考察的一项,一般来说活泼、外向的性格始终会受到大家的亲睐,所以我们在面试官面前一定要展示性格阳光的一面,即使内向,也不能表现出来。
4、简单的介绍一下自己的未来规划。未来规划这一项是为了告诉面试官,我是一个有计划、有目标、有理想的人,我参加面试是因为我对这份工作比较热爱,而不是为了混口饭吃而应聘这项工作。很多老板最怕找到以混日子为目的的员工。
5、注意扬长避短。扬长避短也就是说在面试时尽量选择自己好的方面来说,只说自己的优点,避免谈及自己的缺点。从人性的角度来讲,人们总是对负面的新闻感兴趣,因此在面试时,面试官会千方百计的发现你的缺点,你的弱项,如果我们主动将缺点暴露给对方,那么产生的影响往往是负面的。
细节决定成败,一个简单的自我介绍虽然只有短短的几分钟,但是其内容却包罗万象,因此在面试时自我介绍的完美与否是举足轻重的。
二、大数据面试要准备一些常见的面试题：
1、你会Java语言吗？熟悉到什么程度？
2、你最喜欢的编程语言是什么？为什么？
3、处理过的最大的数据量？你是如何处理他们的？处理的结果如何。
2、在处理大数据过程中，如何保证得到期望值？
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？
4、点击流数据应该是实时处理？为什么？哪部分应该实时处理？
6、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？
7、如何判别maprece过程有好的负载均衡？什么是负载均衡？
8、Spark和Hive的区别，以及Spark和Hive的数据倾斜调优问题？
9、Hive和Hbase的区别？
10、MapRece的思想，以及MapRece调优问题？
11、你所了解的开源网站？
12、有两个集群，每个集群有3个节点，使用hive分析相同的数据，sql语句完全一样，一个集群的分析结果比另外一个慢的多，给出造成这种现象的可能原因？
13、Hbase的优化？

14、集群的版本，以及集群的瓶颈问题？
15、CRM项目，怎么跟Spark结合？
16、如何创建一个关键字分类？
17、海量日志数据，提取出某日访问网络次数最多的那个IP？
18、Hadoop和Spark处理数据时，出现内存溢出的处理方法？
19、有一个1G大小的一个文件，里面每一是一个词，词的大小不超过16字节，内存大小限制大小1M，返回频率最高的50个词。
20、你是如何处理缺少数据的？你是推荐使用什么样的处理技术，或者说你是用什么样的技术处理呢？

㈦大数据管理局:追赶高速运转的大数据行业

大数据管理局:追赶高速运转的大数据行业

几年前，大数据似乎还是科学家才会关心的事，但如今，它已触手可及。

例如，著名职场社交网站LinkedIn公布的2014年最受雇主喜欢、最炙手可热的25项技能中，统计分析与数据挖掘位列榜首。而研究机构Gartner预测，2015年，全球将新增440万个与大数据相关的工作岗位，25%的组织将设立首席数据官一职。

政府机构同样正经历深刻的变化。今年5月，曾在LinkedIn、eBay、Skype等硅谷公司任职的帕蒂尔(DJ Patil)被奥巴马任命为白宫首位首席数据官和制定数据策略的副首席技术官。这一史上最荣耀的IT职位旋即吸引无数关注。

与之相对，最近两年，国内不少地方政府也赶起了“时髦”，开始建立全新的政府职能机关—大数据管理局。如果用更接地气的称呼，这些局长也就是当地的首席数据官。

这些新生机构目前大多承担着组织制定数据收集、管理、开放、交易、应用等标准规范、推动政府数据开放、推进大数据产业发展等方面的职责，但目前还没有很多落地的动作。

而9月初，国务院印发《促进大数据发展行动纲要》(以下简称《纲要》)，系统部署大数据发展工作。《纲要》指出，2018年底前，要建成国家政府数据统一开放平台，率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。

有业内人士接受时代周报记者采访时认为，各地建立大数据管理局，其实正是对国务院要求发展大数据的提前响应。既然如此，这些新生机构准备如何推动中国的大数据产业发展呢？

由政府牵头推动大数据产业

9月1日，成都市经济与信息化委员会的网站上挂出一则《关于成立“成都市大数据管理局”筹备组的通知》。这份公告显示，成都市委编委2015年第2次会议决定，批准在该市经信委下设立大数据管理局。

大数据管理局的名字听上去颇为新鲜，但这已不是国内首家。此前，广东、辽宁等省均有地方政府率先试水。

大数据管理局的提法最早出现在2014年1月的中共广州市委十届五次全会上，成立这个“局”的目的是为统筹推进政府部门的信息采集、整理、共享和应用，消除信息孤岛，建立公共数据开放机制。

这一构想很快得到立法支持。1个月后，广东省政府印发《广东省经济与信息化委员会主要职责内设机构和人员编制规定》，其中明确提及成立广东省大数据管理局。

此后，当年5月，广东佛山南海区挂牌成立数据统筹局；没过多久，广东清远在其经济与信息化局的“三定方案”(定机构、定职权、定人员)中要求设置大数据管理科。

而到今年5月，广州市政府公布工信委、商务委、国资委3个部门的“三定方案”。根据方案，广州市工信委设立直属行政单位广州市大数据管理局，主要负责研究拟订并组织实施大数据战略、规划和政策措施，引导和推动大数据研究和应用工作；组织制定大数据收集、管理、开放、应用等标准规范等9项职责。

按照规定，这个正处级单位内设3个科室，分别为规划标准科、数据资源科(视频资源管理科)与信息系统建设科，同时，配备行政编制15名，包括局长(副局级)1名，副局长(副处级)2名。

几天后，辽宁沈阳亦快马加鞭地建立了大数据管理局，级别为正局级，同样下设3个部门—大数据产业处、标准与应用处和数据资源处。而之所以说“快马加鞭”，该单位从组建到挂牌，前后只用了短短两个多月。

不止如此，公开报道显示，上海市政府也有建立大数据局的构想，但目前尚在研究阶段。

而在今年6月习近平总书记曾前往考察大数据产业发展情况的贵州省，有知情人士对时代周报记者披露，“贵州也有建设大数据管理局的模块，但当地的考虑是，希望大数据产业发展成熟后再规划大数据局进行统筹、管理，而在大数据发展期，这个产业需要省委省政府从大局上进行推动”。

几乎一夜之间，全国多地的政府组织架构中都出现大数据管理局。“目前，各地都逐步意识到政府数据公开的社会价值与商业价值，于是纷纷成立大数据管理局，由之牵头，推动当地的大数据产业发展。”贵阳大数据交易所执行副总裁王亚川告诉时代周报记者。

而易观智库分析师任伟魏认为，各地成立大数据管理局是为响应国务院对发展大数据的要求。而《纲要》出台后，各级政府肯定会作出更多回应，“成都此次应该是提前布局了”。

“其实，不管是广东省委书记胡春华，还是贵阳市委书记陈刚，这几个率先尝试成立大数据局的地区，他们的领导有一个共同点—都从北京出来，而且，到地方之前都已经有发展大数据产业的成熟想法。”上述知情人士表示。

开放数据将带动创新产业

对于顺应潮流而生长的大数据管理局，很多人非常好奇，这个机构究竟要做些什么？它与已有的统计局又有何不同呢？

按照王亚川的观察，各地政府目前拥有的数据可以分为两类：政务数据和政府数据。统计局偏向收集政务数据，通常都是数字，比如经济指标；而大数据管理局的主要对象是政府数据—政府在行政审批、非政府审批、服务事项等方面留存的数据，其中包括一些非标准化的文字数据。

而亚信数据副总裁邹明达告诉时代周报记者，统计局与大数据管理局的目标与定位有着天然的差别。首先，前者通过各级政府统计、申报、汇总获得结构化数据，后者则通过城市的政务信息化、社会信息化、产业信息化的全面推进，提取结构多样的海量业务数据、过程数据、行为数据并进行汇总、加工、分析、挖掘；而且，拿到数据后，前者运用于决策或指数发布，而后者要做的是最大程度地发挥数据的社会服务或商业价值；此外，从数据量级来看，后者处理的才是真正的大数据。

“大数据管理局目前急需行使的主要职能包括，其一，消除数据孤岛，将散落在各个委、办、局的政府数据汇集起来，形成全省或全市的数据中心；其二，通过政府立法等制度建设，对各行各业如何安全使用数据进行有效监管。”邹明达说。

事实上，消除数据孤岛只是第一步，大数据管理局更大的“野心”在于推动政府数据公开—时代周报记者梳理发现，广州、沈阳、成都三地对大数据管理局的职能设定中都有一句类似的表述：组织制定大数据收集、管理、开放、应用等标准规范。

而在《纲要》中，国务院重点部署三项主要任务。其中，首要任务便是，加快政府数据开放共享，推动资源整合，提升治理能力。

政府及相关部门如果能在收集、管理数据的基础上开放数据，例如开放医疗数据、病例数据，这些数据的分析结果一旦服务于医药研究公司，那么释放的将不仅是商业价值，还有巨大的社会价值。

目前，在政府数据开放上走得最前的贵州省已将医疗数据列入数据公开目录。不过，贵州的政府数据计划分三期开放，医疗数据不在首批之列。

“现在的企业大多只基于自己长期积累的数据做一些大数据业务，阿里巴巴设立的蚂蚁金服就是一个典型案例。它利用天猫、淘宝的数据扶持自己的业务，但要想服务全国市场，仅仅依靠淘宝、天猫的数据是远远不够的。所以，政府数据以及一些行业数据公开后，对于阿里巴巴来说，相当于打通了数据来源的壁垒，他们的业务将得到更好的支持。”王亚川说。

在他看来，开放政府数据对于产业发展的意义还在于，一些学者、学子以及初创型企业会在数据应用上创造出全新的商业模式，从而实现“大众创业、万众创新”。

其实，政府通过开放数据带动商业发展在国外有过不少案例。比如，1983年，美国将卫星定位系统从军用转为向公众开放，结果带动了一批创新企业的发展，创造就业岗位约300万个。

而在贵州，该省此前通过第一届大数据商业模式大赛，成功吸引一批创业者和创业项目入黔。这个比赛最与众不同之处就在于主办方承诺，在初赛阶段向参赛者开放部分政府数据目录；复赛和决赛阶段则进一步开放经过“脱敏”处理的数据资源，帮助项目设计者开发、完善参赛方案。

谁来制定标准？

虽然开放政府数据可能带来诸多益处，但这并不是一件“说开放就能开放”的易事，因为，政府首先要制定数据开放的规范和标准。

据时代周报记者了解，目前，多数地方停留于“消除数据孤岛”的阶段，在真正公开政府数据之前还要完成数据公开目录设计以及数据清洗、脱敏等工作。而如何设计数据公开目录；哪些数据先公开，哪些后公开，设定这些规则是一个难题。

比如，贵州是全国第一个尝试公开海量政府数据的省份。此前，贵州省经信委信息产业发展处处长魏巍在接受时代周报记者采访时表示，该省省一级政府机构的业务系统自去年6月始分批迁入“云上贵州”系统平台。迁云前，各个迁云单位首先要按照涉密、非密敏感、开放三个类目梳理已有数据。迁云后，涉密数据不开放，开放数据必须开放，非密敏感数据视情况而定。

当时一位参与迁云工作的某单位人士觉得工作难度很大，因为，“省大数据办要求我们开放数据，但开放到何种程度由业务部门自己把握。可我们一开始没有经验，不知道某些数据能否开放，也无法预估开放之后会否引发问题”。

不过，在一些业内人士看来，贵州先行先试后，其他地区可以借鉴经验。“政府数据主要有政府审批、非政府审批以及服务事项三个来源，其中，行政审批数据目录在各个地方的可复制度很高，而其余两项数据目录，各地也有50%-60%的重合度。”王亚川说。

“如果只是整理数据目录，这并不困难，关键是如何在开放过程中保证数据安全与公民隐私。比如地理信息数据，原则上是可以开放的。但如果这些数据精确到某种程度，那可能会危害国家安全。所以，我们要把国家在安全和保密方面的规定整合进来，对数据开放行为进行制度层面的约束。从这个角度来说，那些设立大数据管理局的地方就可以通过这个职能部门完成这些工作。”邹明达说。

不过，任伟魏却并不看好由大数据管理局承担组织制定大数据收集、管理、开放、应用等标准规范方面的职能。

“各地大数据管理局制定标准后，除了用于政府数据，也会使本地企业向这些标准靠拢，但问题在于，与大数据行业本身高速运转的现状相比，政府的工作节奏慢，存在滞后性，恐怕无法在短期里解决行业需要改善的问题。”

“而且，各行各业的大数据应用水平差距明显，金融、零售、电信等大数据应用成熟的行业早已过了制定标准规范的阶段，现在更多关注运营，以及客户资源挖掘中的风险。而例如旅游这些当前大数据应用相对缓慢的行业，反而需要尽快完成标准制定的工作。”任伟魏说。

在他看来，如果各个大数据管理局都自立标准，那么，各地的标准之间还存在能否统一、兼容等问题，否则，这就是画地为牢。“而且，各地的大数据管理局还可能争抢全国性标准规范制定中的主导权，从而出现掣肘。”

数据交易雏形

事实上，完成制定大数据收集、管理、开放、应用的标准规范后，大数据管理局或将进入更深层的领域—数据交易。至少，沈阳大数据管理局的职责中就包括制定大数据交易的标准规范。

目前，贵阳、武汉、陕西西咸新区等地都成立了大数据交易所，探索大数据交易机制，而广州、哈尔滨等城市正有这方面的计划。今年5月，国务院副总理马凯还曾到贵阳大数据交易所考察。

但国内的大数据交易如今尚在初期。王亚川告诉时代周报记者：“我们认为，底层数据是不可交易的，但通过清洗、脱敏、建模及可视化技术形成的分析结果可以交易，而且，可以反复交易。例如，车管所的一些数据既可以服务保险公司，也可以被其他行业所用。”

而参与发起长江大数据交易所的亚信数据副总裁邹明达认为，数据交易要经历三个发展阶段，首先是数据的信息化，也可以理解为采集数据；其次是数据的资产化，即，把数据变成类似商品实物的资产；最后才是数据的资本化。到了这个阶段，数据可以被定价，可以像金融商品一样交易。“目前的数据交易处于数据信息化和数据资产化的阶段，尚未达到数据资本化的高度。”

邹明达表示，他们做的大数据交易只是数据使用权的交易，或是通过数据加工得到的有价值的结果的交易，而非真正意义的产权交易。

而在定价方面，运营中的大数据交易所普遍采用撮合定价的方式：交易所拥有价格的建议权，数据卖方拥有决定权，而影响价格的主要因素包括数据的量级、样本的覆盖度、数据颗粒的大小、质量、更新频率等。

据介绍，从今年4月中旬运营至今，贵阳大数据交易所总共完成了2000多万的交易额，目前的交易主体主要是行业内的大型企业。比如，首批数据的交易卖方为腾讯和广东省数字广东研究院，买方为京东云平台及中金数据。通常，在交易中，贵阳大数据交易所获得交易金额的四成，数据卖家获得六成。

而据王亚川透露，预计今年年底，贵州省将有第一批政府数据推送到贵阳大数据交易所进行变现。

王亚川认为，政府数据分为三类，一类是惠民信息，无偿公开；一类是国家保密条例限制的数据，不予公开；还有一类则是政府可以公开但没有义务公开的数据。“过去，政府没有动力开放这部分数据，但在国务院发布《纲要》后，政府的开放动力增强，他们会借助大数据交易所的平台来开放数据，同时实现变现。”

业内也有一种观点认为，政府数据的实际拥有者是民众，政府能否通过售卖这些数据获得收益还有待探讨。

对此，邹明达则认为，政府在开放数据之前需要进行数据收集、清洗、脱敏，甚至还要按照需求加工，这些都要花费成本，所以，数据开放不能完全依靠财政支出，可以有一些收入。

事实上，除了各地带有政府或国资背景的大数据交易所正在积极探索数据交易之路，阿里巴巴旗下的阿里云也在尝试设计数据交换机制。

“在交易机制这块，包括政府、阿里这样的互联网企业，以及IBM、Oracle等ICT企业，各方都想成为主导者。”任伟魏认为，在数据交易这件事上，大企业的想法是成为业内标准的制定者，而中小企业自己产生的数据不多，寄望相应的机制能够保证其充分利用各类数据源。

不过，大数据交易距离标准规范最终落定还有很长一段路，毕竟目前，各地的大数据管理局才刚刚成立，他们的工作正从顶层设计向多个维度逐渐展开。

以上是小编为大家分享的关于大数据管理局:追赶高速运转的大数据行业的相关内容，更多信息可以关注环球青藤分享更多干货

㈧大数据的考察维度有哪些

第一、描述思维
也就是要将一些的结构化的数据或者非结构化的数据都变为客观的标准，在大数据思维的过程中，涉及了很多人为的因素，这些也是可以进行数据分析的，举一个例子就是消费者行为的研究，消费者行为可以是定量的，也可以是不定量的，描述思维就要包含消费者行为的各个方面。这里举一个例子就是商场会对连入局域网的客户继续进行数据的采集，了解客户的消费情况以及分布的情况，消费者可以实现购物、用餐、休闲、娱乐一条龙的服务，并且也可以在很大的程度上提升用户的体验度。在一些大型的景区或者游乐场，大数据可以帮助景区进行更好的游客管理。
第二、相关性思维
就是对于数据之间相关性的研究，对于消费者行为或者用户行为的研究方面，这些行为在一定程度上，大大小小和其他不同的数据都是有内在的联系的，大数据分析的结果就可以更好的建立起数据预测的模型，可以用来预测消费者的偏好和行为，相关性的研究和纷纷也可以更好的支持预测思维，例如在现代物流行业，可以根据消费者的购买行为或者购买习惯，路线以及评价等预测下次的购买行为，现将一些货物进行分仓的存储，在消费者网络下订单之后，可以第一时间就配送到位，大大提升了用户的体验度。以及电商的一个重要的商品推荐功能，也是和大数据的相关性思维密不可分，我们在浏览页面或者是购物完成之后经常会受到类似的推荐功能，虽然说并不是百分之百都会购买，但是推荐还是有效果的。
第三、攻略思维
在大数据继续预测以及分析之后，企业可以根据大数据分析的结果进行营销策略的调整，这才是大数据营销的主要目的，从描述到预测，最后到攻略，这也是大数据思维的一个完整的过程。

㈨学习大数据时需要注意哪些要点

数据驱动一切的时代，大数据正在改变整个时代，所以，无论是哪个行业在未来都将能够与大数据相对接。而大数据的作用也将影响各个行业实现更加快速的发展。学习大数据的基础是Java语言和Linux操作系统，零基础需要从这两项基础开始学习，学习顺序不分先后，一般都会选择先从Java语言开始学习。

Java方面，只需侧重学习标准版JavaSE，其他Java方向的技术在大数据技术中运用较少，可适当减少投入精力，仅作了解即可。由于大数据相关软件基本都在Linux操作系统上运行，所以Linux系统也是大数据必学的基础，需要扎实的掌握，以便后续深入学习真正的大数据技术。学会这两项基础后，接下来就需要学习大数据相关的技术了。首先学习Hadoop，需要学习它的HDFS、MapRece和YARN的组件，学会了这些，接下来就按顺序学习Zookeeper，Mysql，Sqoop，Hive，Oozie，Hbase，Kafka，Spark。

当我们把这些技术都学会了，基本上就能成为一个专业的大数据开发工程师了。之后再进阶提高一下，学习一下python、机器学习、数据分析等知识，能让自己在今后的工作中更好的配合算法工程师、数据分析师，让自己变得更进步更优秀。假如确定自己确实想要脱离原有行业，想要进入大数据行业，那么，可以先从关注大数据行业动态、接触行业知识开始，让自己全面的了解这个行业。

关于学习大数据时需要注意哪些要点，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

㈩如何运用大数据

我们如何使用大数据？
第一点，明确数据分析的目的
首先，您必须知道手中的数据要怎么处理，这意味着您需要清楚需求以及要从数据中获取什么。让我们以产品经理为例。当许多产品经理设计自己的产品时，他们可能会花费大量时间来设计产品，但是他们忽略了该产品是否可以成功。这很难满足客户的需求。因此，如果要最大化自己的数据的价值，则必须事先考虑要执行的操作。

第二点，必须扩大数据收集方式
关于数据收集，通常有四种方法。它们是从外部行业数据分析报告（例如iResearch）获得的；积极从社区论坛（如AppStore，客户服务反馈和微博）收集用户反馈；参加问卷调查设计和用户访谈等调查，收集并观察用户在使用产品时遇到的问题和感受的第一手数据；从记录的用户行为轨迹研究数据。

导航:首页 > 网络数据 > 大数据考察

大数据考察

大数据专业专业课程难度大，有本科学历要求！

与大数据考察相关的资料

友情链接