⑴ 大数据在今天这个时间点上爆发的原因有哪些
为如今互联网发展特征的大数据,在以云计算为代表的技术创新大幕的衬托下,让那些原本很内难收集和使用的容数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值,因此兴起了“大数据”热。
关于大数据的学习,线下学习费用高昂、地域限制,建议选择线上平台。如今线上学习无论是就业还是教学均已完善。大数据开发技术让大数据成为了2017年移动互联网追逐的热点。也引得很多领域外的人才纷纷转投于大数据开发领域,扣丁学堂具有完整系统的大数据开发培训视频教程,顶级行内大牛为学员们设定了可视化的学习线路直通车,让没有学习方向的学子一目了然,最快的进入大数据领域大门。
⑵ 大数据发展的根基是什么
大数据发展的根基是什么
大数据活在“云端”!唯有云计算能让大数据找到自己的轨迹和存在的真正价值;但大数据不是无根的浮云,它有自己的根,源源不断输送数据的根。
那么,大数据的“根”在哪里?日前国务院出台的《促进大数据发展行动纲要》(以下简称《行动纲要》)或许可以让我们找到答案。
《行动纲要》明确提出了促进大数据发展的三大重点任务和十项工程。三大重点任务之首即加快政府数据开放共享,推动资源整合;十项工程前四大工程涉及政府信息,即:政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程、公共服务大数据工程。不难发现,三大重点任务、十项工程的关键词就是共享,而政府数据的开放共享是核心。
共享是大数据的“根”
大数据与云计算,或许就像一枚神奇的金币之正反面,让许多人感觉“云里雾里”、亦真亦幻,却又能真切地感受到金币的光芒。
什么是大数据?按照维基网络的定义,大数据是指无法在可承受时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据的基本特点可以概括为“4V”:大量化(Volume)多样化(Variety)、快速化(Velocity)、价值化(Value),即海量的数据规模、快速的数据流动和动态的数据体系、多样的数据类型、巨大的数据价值。
而《大数据时代》的作者维克托·迈尔·舍恩伯格给出的解释或许更易于理解,他认为,“大数据”并不是很大或者很多数据,并不是一部分数据样本,而是关于某个现象的所有数据。比如说关于一家企业的数据信息,除了企业名称、法定代表人、注册资本、经营范围等基本信息外,还包括财务信息、经营信息、外部关联关系、诚信状况等信息。大量、多维、立体、交织信息的汇集,就可以为不同主体、基于不同需求分析企业提供数据基础。
如果将单个或局部领域的数据及其挖掘处理视为小数据,那么关于某一主体的大数据就是由成千上万、相互关联、相互交织的小数据汇聚而成的。小数据的充分融合,就是大数据形成的根基。譬如一滴水,唯有与别的水滴融合在一起,才能形成水流,才能汇成江河、海洋,才能发挥水的价值。这种融合就是共享。没有小数据的共享,就没有大数据生长的“根”。
要从海量的数据中快速地分析、挖掘出有用的信息,单台计算机已难以胜任,必须采用分布式架构,依托云计算的分布式处理、分布式数据和云存储、虚拟化技术,即透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算、分析之后将处理结果回传给用户。这就是与大数据相依相存的云计算。显然,如果没有数据的共享,云计算也是“无米之炊”。
当然,数据能否共享,涉及到数据的开放性、法律边界、数据价值实现等问题,还面临诸多现实障碍。
谁阻碍了数据共享?
当我们沉醉于大数据的奇妙与魔法无边的时候,现实世界却给了我们一记响亮的耳光!我们会沮丧地发现,许多政府公共信息仍处于零散、分割、封闭状态!
各级政府部门在履职过程中掌握了大量的数据信息,其中涉及企业(个人)的数据最为丰富。目前普遍认为比较有用的企业信息大致包括四个方面。
一是反映企业基本情况的信息。包括:工商部门提供的企业注册登记信息,注册资本、股东及高管变更情况等;环保部门提供的企业环境违法处罚信息、环评审批、排污许可证和排污权抵押登记情况等;质监、安监、食品药监、卫生等部门提供的各项资质信息。
二是反映企业真实经营状况的信息。包括:税务部门提供的企业应税销售额,纳税、退税情况等;人力社保部门提供的企业社保缴纳、劳动争议情况、劳动保障书面审查信息等;海关部门提供的进出口信息、企业报关情况等;水、电、气部门提供的缴费及欠费情况等。
三是反映企业及企业主资信状况及守法情况的信息。包括:公安、法院等部门提供的企业或企业主的司法诉讼、执行、查封信息等;工商、环保、人社、税务、质监、安监、食品药监、卫生、海关等部门提供的处罚信息。
四是反映企业融资、财产抵质押、对外担保等情况的信息。包括:人民银行[微博]征信系统提供的贷款、质押信息,工商部门提供的股权转让、抵押、查封信息等;房产部门提供的房地产权属、抵押、查封、租赁信息等。
这些涉及企业的各种信息资源散落在不同的政府管理部门,总体处于彼此分割、孤立、封闭状态,没有实现数据之间的共享、连接和融合,更谈不上大数据价值的体现。
尽管近年来,各级政府都在积极搭建公共信用信息平台,推动社会征信体系建设,特别是《国务院关于印发社会信用体系建设规划纲要(2014—2020年)的通知》出台后,步伐进一步加快,各部门也大多建立了自身的信息管理系统,但部门之间信息不共享或共享不充分仍是常态。即使有一些全国性、地区性的统一信息平台,如“全国企业信用信息公示系统”“信用浙江”等,所含企业信息也非常有限,且不完整、不及时。
这种信息割裂的状态,不仅不利于大数据的发展,从眼前看,则对具体运用大数据的相关主体的发展形成阻碍。比如,银行业在服务实体经济特别是小微企业过程中,面临的突出瓶颈之一,就是信息瓶颈。银行业开展小微企业信贷业务面临的最大困惑是信息不对称。信息的不对称使银行在发放小微企业贷款时难免“如履薄冰”,顾忌甚多。因此,能否切实掌握和了解反映企业真实经营状况、企业及企业主资信状况等相关信息,在很大程度上决定了银行对小微企业放贷的意愿以及介入小微企业信贷领域的深度。
目前客观存在的企业信息难共享之格局,根源在于部门利益。相关政府部门在参与公共信用信息平台建设时,出于种种原因,往往叫得响、做得少。一些部门出于自身商业利益,将自身所拥有的大量公共信息视为“私有财产”,以有偿作为提供信息的条件;或以维护商业秘密、涉及部门机密为由,不愿将拥有的、本属于公共资源的企业信息与其他部门共享,或者象征性地扔几根“骨头”,人为造成了企业信息的分割、残缺,也造就了许多“僵尸”信息平台;有些信息的共享按说不应存在障碍,只因为一些数据拥有的部门感觉“吃力不讨好”,缺乏主动提供数据的动力。
当然,也不排除个别地方政府从局部利益出发,对可能影响当地企业发展的行政处罚类负面、失信信息的公开加以阻扰,影响信息数据的共享。深层的原因,则是社会信用体系建设法制化步伐缓慢,公共信息征集机制不健全,对相关部门提供、公开相关政务信息缺乏有效的约束,以及信用信息使用在公开与保密之间的法律边界不清晰。
怎样走向数据共享?
《行动纲要》把加快政府数据开放共享、推动资源整合列为首要任务,把推动政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程、公共服务大数据工程等工程建设作为促进大数据发展的基础设施工程。说明政府高层对信息共享问题的高度关注。
显然,推动数据共享的起点是政府部门间的信息共享,而这恰恰是难点所在。这是一个系统性艰巨工程,也是一个渐进的过程,既需要加快社会征信体系的法制化进程,更需要政府及相关部门创新思维。
搭建统一、公开、透明的社会信用信息共享平台,有效整合政府各部门信息。对于拥有各种管理资源的政府而言,搭建一个比较完备的信息平台框架似乎并不难,难就难在能否实现信息的充分共享。如何让信息平台所涉及的政府部门主动、及时、充分地将自身所拥有、可公开的数据信息共享到统一的信息平台,关键是要强化信息征集的行政约束力,建立公共信息共享平台的保障机制。
在现行体制下,笔者以为政绩考核“指挥棒”或是推动信息共享之“神器”。应以推动《社会信用体系建设规划纲要(2014—2020年)》实施、落实政务公开制度为抓手,将公共信用信息共享系统数据信息的报送纳入政府对相关部门的考核,前提是要充分研究和界定各类信息公开的法律边界,特别是在对各类违法违规信息、不诚信行为信息的公开方面,应明确可以采取的共享方式和程度,以打消信息发布各方的顾虑。在此基础上,制定清晰的公共信息共享清单,明确相应的责任与义务。
小数据不能共享,大数据必是空谈。所以,看大势、顾大局、破本位,推进小数据共享,是政府部门在大数据时代应有的思维。
以上是小编为大家分享的关于大数据发展的根基是什么的相关内容,更多信息可以关注环球青藤分享更多干货
⑶ 对大数据的全方位解读
对大数据的全方位解读
大数据是当下非常火爆的一个词,人人都在谈论大数据。但大数据的定义是什么?它到底是如何出现的?它有什么特别之处?它最大的应用领域在哪里?它的发展方向是什么?对于以上问题,其实大多数人是弄不清楚的。
1)大数据时代出现的必然性
大数据和云计算这两个词经常被同时提到,很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性,也有区别。云计算指的是一种以互联网方式来提供服务的计算模式,而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。大数据处理会利用到云计算领域的很多技术,但大数据并非完全依赖于云计算;反过来,云计算之上也并非只有大数据这一种应用。
云计算的起源可以追溯到 2003 年末 Amazon 公司工程师 Chris Pinkham 提交给 CEO Jeff Bezos 的一篇论文中的一个设想:将 Amazon 内部使用的计算基础设施开放给全世界的开发者。次年 11 月,Amazon 发布了第一版云计算服务:Simple Queue Service。Simple Queue Service 再往后发展至 2006 年,演变成立今天着名的 AWS(Amazon Web Sercice)。同在 2006 年,Google 公司 CEO Eric Schmidt 首次公开提出了“云计算”(Cloud Computing)的这一概念,云计算也在这一年开始变得广为人知。
大数据这个词的流行却晚了好几年——直到 2009 年,大数据这个说法才逐渐开始在互联网圈内传播。但仅仅在互联网领域流行,仍然不足以引起普遍关注,因为纯互联网经济毕竟只占全球经济总量的很小一部分。而大数据概念真正变得火爆,却是因为美国奥巴马政府在 2012 年高调宣布了其“大数据研究和开发计划”——美国政府希望利用大数据解决一些政府部门面临的非常重要的问题,该计划由横跨 6 个政府部门的 84 个子课题组成。这标志着大数据真正开始进入主流的传统线下经济。
大数据出现的时间点自有它深刻的原因。2009 年至 2012 年这段时间正是电子商务在包括中国在内的全球全面开花的几年。众所周知,互联网领域有 3 大类商业模式:广告、游戏和电子商务。而电子商务又是第 1个真正将纯互联网经济与传统经济嫁接在一起诞生的混合模式。准确地说,正是互联网与传统经济的碰撞,才真正催生出了今天几乎全民关注的“大数据”。大数据横跨了互联网产业与传统产业,而且大数据真正广阔的应用领域其实也正是比纯互联网经济大得多的传统产业。
从数据量的角度来看,在电子商务模式出现以前,传统企业的数量增长缓慢。传统企业的数据仓库中的数据大多数来自于交易型数据,而交易这种行为处于用户消费决策漏斗的最底部,这就决定了交易前的各种浏览、搜索、比较等用户行为数据的都量远远超过交易数据。电子商务模式使得企业可以采集到用户的浏览、搜索、比较等行为,这就导致企业的数据规至少提升了一个数量级。现在日益流行的移动互联网以及将来会流行的物联网又必将使数据量提高两三个数量级。从这个角度来讲,大数据时代是必然会出现的。
从IT产业的发展来看,第一代IT巨头大多是 2B 的,比如 IBM、Microsoft、Oracle、SAP 这类传统IT企业;第二代IT巨头大多是 2C 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。一个有意思的现象是:大数据时代前,这两类公司彼此之间基本是井水不犯河水,我们很少看见这两类公司的老板们在一起坐而论道;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统IT巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统IT巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。所以第三代IT巨头可能会是 2B 与 2C 融合的IT公司。
2)大数据的核心内涵
大数据概念虽然非常火爆,但少有人真正理解大数据的核心内容。一个普遍而且严重的误解就是:大数据= 数据大,即大数据就是量大的数据。事实上,除了数据量大这个字面意义,大数据还有两个更重要的特征:
1) 跨领域数据的交叉融合。相同领域数据量的增加是加法效应,不同领域数据的融合是乘法效应
2) 数据的流动。数据必须流动,流动产生价值
对于第 1) 点,百分点推荐系统研究中心实验结果显示:百分点公司有 3 家客户,分别是从事服装、化妆品和箱包销售的电商,百分点向这 3 家客户提供个性化商品推荐服务,即:百分点挖掘用户的偏好,不同的用户上同一家电商网站时,向他们展现不同的服装、化妆品或箱包,从而提高电商的转化率和客单价。我们做过两种测试:
a) 将每家网站的数据隔离。当每家网站自身的数据量增加到以前的 4 倍时,推荐效果大约能提高 5%;
b) 将三家网站的数据在去除敏感信息之后进行某种融合。融合后的数据大致是与单家网站的数据的 3 倍,比第一种情况数据量还少。但利用融合后的数据进行数据挖掘时,推荐效果能提升 30%,而且推荐商品并未发生变化,仍然是:用户上服饰类网站时只看见服装、上化妆品网站时只看见化妆品、上箱包网站时只看见箱包。
解释得详细一点,上述实验说明:对同一个消费者,如果我们要向其推荐服装。第一种方法是我们根据他过去的 4 次购买服装的行为来预测其下一次可能会购买的服饰;第二种方法是我们根据他过去分别购买服装、化妆品和箱包的各 1 次行为来预测其下一次可能会购买的服饰。两种方法的基于的用户行数分别是 4 次和 3 次,但第二种方法的效果明显更好。
对于第 2) 点,其实 10 多年前传统企业开始做数据仓库时,数据仓库从业者经常强调一个观点:企业级数据仓库的目标是让不同部门的数据流动起来,各个部门数据割裂,数据的价值就得不到发挥。到了今天的互联网时代,我们发现即使企业已经打通了内部各个部门之间的数据,但与整个互联网比起来,数据量仍然微乎其微,数据应该以互联网为媒介在企业之间某种形式的流动。参照“企业级数据仓库”的概念,现在已经开始出现了“互联网数据仓库”的概念:就是企业通过互联网渠道将与自己相关的外部数据与内部数据进行整合,从而形成“互联网数据仓库”。百分点已经在零售与媒体领域比较成功地打造了“开放数据联盟”,该联盟的成员可以在公允、安全的情况下基于该联盟建立起自己的“互联网数据仓库”,从而享用海量数据的价值。
3)大数据的应用领域
大数据的起源要归功于互联网与电子商务,但大数据最大的应用前景却在传统产业。一是因为几乎所有传统产业都在互联网化,二是因为传统产业仍然占据了国家 GDP 的绝大部分份额。
哪些传统企业最需要大数据服务呢?至少有 3 类企业:
1) 对大量消费者提供产品或服务的企业
2) 做小而美模式的中长尾企业
3) 面临互联网压力之下必须转型的传统企业
第 1) 类企业都需要利用大数据精准分析不同消费者的偏好,提高营销和服务的质量;第 1) 类企业都需要利用大数据分析精准定位自己的客户群;第 3) 类企业主要指哪些正在遭受来自互联网的新玩家冲击的传统企业,此类企业自然都需要利用互联网和大数据作为自我进化的工具。当然,第 3) 类企业与前 2 类企业有重叠。
具体来讲,中国最需要大数据服务的行业就是受互联网冲击最大的产业,首先是线下零售业,其次是金融业。
受电商的冲击,国内很多零售巨头都增长严重放缓,甚至遭遇负增长,线下零售已经到了不得不变革的危机关头。我们也看到了银泰百货、王府井百货、万达集团这些具有创新意识的传统巨头开始利用互联网和大数据来改造线下商业。其中银泰百货以手机为载体、利用 O2O 方式进行双线数据挖掘的创新非常值得借鉴。
而金融行业就更加特殊:金融业并不销售任何实体商品,它自诞生起就是基于数据的产业。由于国家管制,金融业在前几年享受了非常好的政策红利,内部变革动力不足。而目前金融业已经逐渐开始放松管制,新兴的金融机构必将利用互联网以及大数据工具向传统金融巨头发起猛烈攻击。而传统金融机构在互联网方面的技术积累和数据积累都不足,要快速应对新进入者的挑战,必然需要大数据服务。我们也看到了中信银行信用卡中心、招商银行信用卡中心已经在开始利用互联网大数据进行创新。
那么传统产业需要什么样的大数据服务呢?这主要包括 3 层:
1) 基于大数据的行业垂直应用。每个行业都有自己的特点,所以自然会存在行业应用的需求;
2) 顾客标签与商品标签的整理。不管什么行业,都需要精细化整理自己顾客的属性标签以及商品属性标签,而且这些标签必须能够细化到单个顾客和单个商品。标签是行业应用的基础;
3) 企业内部和外部数据的整合与管理。要给顾客和商品打标签,首先必须整合企业内部和外部数据,尤其是日益重要和庞大的外部数据。
图:传统企业需要的大数据服务
第 3 层和第 2 层的方法相对比较通用,行业特殊性相对较少。百分点已经在第 3 层和第 2 层做出了比较成熟的产品,并且也开始在第 1 层做出了一些具体的行业应用产品,比如针对服饰行业的时尚服饰搭配系统。
4)大数据的发展方向
大数据产业未来会向什么方向发展?随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。拿钢铁产业来讲,铁矿石公司从矿场中挖出矿石,经过粗加工,卖给钢铁企业;钢铁企业再进行精细一点的加工,将板材、钢条卖给下游制造业公司;这些制造业公司做出汽车、飞机、门窗、电脑等产品卖给下游公司。这个产业链中存在找矿、运输、加工等诸多环节,每个环节都有对应的企业。
图:传统企业的供应链
在“数据供应链”中,存在数据、数据整合与挖掘工具以及数据应用这 3 大环节。数据就好比矿场的矿石;数据整合与挖掘工具就好比钢厂的冶炼炉;而精准营销、服饰搭配等数据应用就好比汽车、电脑等可以出售给消费者的产品。企业在数据供应、数据整合与挖掘、数据应用等所有环节都需要专业的服务。这里尤其有两个明显的现象:
1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;
2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。
5) 什么样的大数据企业会胜出
常有大数据从业者以及投资人和我们探讨一个问题:大数据产业中,什么样的企业会最终胜出?这是一个很难回答的问题,而且即使回答了,三五年内可能都无法判断其正确性。但从“数据供应链”中的各个环节来分析,还是可以得出一些具有参考价值的结论。
1) 数据供应。在互联网没有流行的时代,企业做数据仓库、商业智能、数据挖掘等系统时采用的数据基本都来自于企业内部,企业几乎无法获取外部数据,所以很少有专业的数据供应商。互联网改变了这一局面,将来会有专业的数据供应商。但既然是因为互联网的出现导致了数据供应商的出现,那么反过来数据供应商就必须具有很强的互联网基因;
2) 数据整合与挖掘。数据挖掘工具供应商在非互联网时代就早已存在。但互联网时代使得企业的数据量激增、数据类型发生极大变化(不同于传统的来自于单一领域的结构化数据,互联网数据以跨域的非结构化数据为主),传统的数据挖掘工具供应商的技术和方法已经很难适应。要跟上时代的变化,数据挖掘技术与工具应用商必须具备互联网公司的海量数据处理和挖掘的能力;
3) 数据应用。具体的行业应用与传统行业的业务关系密切,要做好行业应用,最好需要有服务传统行业的经验,了解传统行业的内部运作模式。这时候仅仅具有 2C 经验的互联网基因的公司又稍显不足。
综合起来看,如果一家大数据从业公司同时兼备互联网数据获取能力、互联网技术、互联网执行力,又有做 2B 服务的经验,那么这家公司将比较容易取得领先优势。这个结论其实一点也不奇怪:如本文开篇所述,大数据本来就是互联网与传统产业碰撞时的产物。
用“方兴未艾”这个词来形容大数据产业的发展阶段都还为时过早,目前的大数据产业只能说是小荷才露尖尖角。国内企业在第 1 代IT产业(硬件和软件产业)中是明显落后国外企业的;在第 2 代IT产业(互联网产业)中,国内企业已经与国外企业差距不大甚至在很多方面超过了国外企业;希望在第 3 代IT产业(云计算和大数据)浪潮中,国内企业能够完全赶上并且超过国外企业,我们也认为这是很有可能的。
⑷ 大数据时代已经到来,什么是大数据
大数据时代已经到来,什么是大数据
大数据时代已经到来,你了解吗?什么是大数据?一、大数据出现的背景进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识 到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的 挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日, 却因为近年来互联网和信息行业的发展而引起人们关注。大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二、什么是大数据?信息技术领域原先已经有“海量数据”、“大规模数据”等概念,但这些概念只着眼于数据规模本身,未能充分反映数据爆发背景下的数据处理与应用需求,而“大数据”这一新概念不仅指规模庞大的数据对象,也包含对这些数据对象的处理和应用活动,是数据对象、技术与应用三者的统一。1、大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据对象既可能是实际的、有限的数据集合,如某个政府部门或企业掌握的数据库,也可能是虚拟的、无限的数据集合,如微博、微信、社交网络上的全部信息。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、 大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:“大数据是最大的 宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。”Kelly说:“大数据是可能不包含所有的 信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。2、大数据技术,是指从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。3、大数据应用,是 指对特定的大数据集合,集成应用大数据技术,获得有价值信息的行为。对于不同领域、不同企业的不同业务,甚至同一领域不同企业的相同业务来说,由于其业务 需求、数据集合和分析挖掘目标存在差异,所运用的大数据技术和大数据信息系统也可能有着相当大的不同。惟有坚持“对象、技术、应用”三位一体同步发展,才 能充分实现大数据的价值。当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。三、大数据的类型和价值挖掘方法1、大数据的类型大致可分为三类:1)传统企业数据(Traditionalenterprisedata):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。2)机器和传感器数据(Machine-generated/sensor data):包括呼叫记录(CallDetail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。3)社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。2、大数据挖掘商业价值的方法主要分为四种:1)客户群体细分,然后为每个群体量定制特别的服务。2)模拟现实环境,发掘新的需求同时提高投资的回报率。3)加强部门联系,提高整条管理链条和产业链条的效率。4)降低服务成本,发现隐藏线索进行产品和服务的创新。四、大数据的特点业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。具体来说,大数据具有4个基本特征:1、是数据体量巨大数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量; 网络资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前 为止,人类生产的所有印刷材料的数据量仅为200PB。2、是数据类别大和类型多样数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化 数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。3、是处理速度快在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。4、是价值真实性高和密度低数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。五、大数据的作用1、对大数据的处理分析正成为新一代信息技术融合应用的结点移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。2、大数据是信息产业持续高速增长的新引擎面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。3、大数据利用将成为提高核心竞争力的关键因素各 行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费 者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作 用。4、大数据时代科学研究的方法手段将发生重大改变例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。六、大数据的商业价值1、对顾客群体细分“大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。2、模拟实境运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装有传感器,汽车和智能手机的普及使得可收集数据呈现爆炸性增长。Blog、Twitter、Facebook和微博等社交网络也在产生着海量的数据。云计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以 数据化。“大数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断不同变量(比如不同地区不同促销方案)的情况下何种方案 投入回报最高。3、提高投入回报率提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。4、数据存储空间出租企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用 户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如亚 马逊、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的彩云业务。5、管理客户关系客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失 率、提高客户消费等。对中小客户来说,专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新 产品预告、特价销售通知,完成售前售后服务等。6、个性化精准推荐在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分 析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。7、数据搜索数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“盘古搜索”。七、大数据对经济社会的重要影响1、能够推动实现巨大经济效益比如对中国零售业净利润增长的贡献,降低制造业产品开发、组装成本等。预计2013年全球大数据直接和间接拉动信息技术支出将达1200亿美元。2、能够推动增强社会管理水平大数据在公共服务领域的应用,可有效推动相关工作开展,提高相关部门的决策水平、服务效率和社会管理水平,产生巨大社会价值。欧洲多个城市通过分析实时采集的交通流量数据,指导驾车出行者选择最佳路径,从而改善城市交通状况。3、如果没有高性能的分析工具,大数据的价值就得不到释放对大数据应用必须保持清醒认识,既不能迷信其分析结果,也不能因为其不完全准确而否定其重要作用。1) 由于各种原因,所分析处理的数据对象中不可避免地会包括各种错误数据、无用数据,加之作为大数据技术核心的数据分析、人工智能等技术尚未完全成熟,所以对 计算机完成的大数据分析处理的结果,无法要求其完全准确。例如,谷歌通过分析亿万用户搜索内容能够比专业机构更快地预测流感暴发,但由于微博上无用信息的 干扰,这种预测也曾多次出现不准确的情况。2)必须清楚定位的是,大数据作用与价值的重点在于能够引导和启发大数据应用者的创新思维,辅助决策。简单而言,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将解决问题的思路拓展了三倍。所以,客观认识和发挥大数据的作用,不夸大、不缩小,是准确认知和应用大数据的前提。八、总结不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。1、从大数据的价值链条来分析,存在三种模式:1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。2、未来在大数据领域最具有价值的是两种事物:1)拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2)还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。大 数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不 断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于 数据的应用需求和应用水平进入新的阶段。
⑸ 人类社会的数据产生方式大致经历了哪三个阶段
数据产生方式历经的阶段
人类社会的数据产生方式大致经历了以下3个阶段:
1.运营式系统阶段
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等,人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中,比如超市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生方式是被动的。
2.用户原创内容阶段
互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web2.0时代,而Web 2.0 的重要标志就是用户原创内容(User Generated Content,UGC)。这类数据近几年一直呈现爆炸性增长,主要有两个方面的原因。首先,以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;其次,以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。
3.感知式系统阶段
人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛布置于社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的根本原因。
⑹ 澶ф暟鎹鐜拌薄鏄鎬庢牱褰㈡垚鐨
澶ф暟鎹鐜拌薄鐨勫舰鎴愬師鍥犲備笅锛
1銆佸ぇ鏁版嵁鐜拌薄鐨勫舰鎴愭槸鐢变簬淇℃伅鎶鏈鐨勫揩閫熷彂灞曞拰骞挎硾搴旂敤锛屼互鍙婃暟鎹鐢熸垚銆佸瓨鍌ㄥ拰澶勭悊鑳藉姏鐨勬樉钁楁彁鍗囥
2銆佹暟瀛楀寲娴娼锛氳繘鍏ヤ俊鎭鏃朵唬鍚庯紝浜轰滑鐨勭敓浜с佺敓娲诲拰绀句氦绛夊悇涓鏂归潰閮芥棩鐩婃暟瀛楀寲銆傚ぇ閲忕殑鏁版嵁鍦ㄥ悇绉嶆椿鍔ㄤ腑浜х敓锛屽寘鎷浜掕仈缃戜笂鐨勬悳绱銆佺ぞ浜ゅ獟浣撶殑浣跨敤銆佺數瀛愬晢鍔$殑浜ゆ槗璁板綍銆佷紶鎰熷櫒鐨勬暟鎹绛夈傝繖浜涙暟鎹涓嶆柇绉绱锛屽舰鎴愪簡澶ф暟鎹鐨勫熀纭銆
3銆佹妧鏈杩涙ワ細闅忕潃璁$畻鏈烘妧鏈銆佸瓨鍌ㄦ妧鏈鍜岀綉缁滄妧鏈鐨勪笉鏂鍙戝睍锛屾暟鎹鐨勬敹闆嗐佸瓨鍌ㄥ拰浼犺緭鑳藉姏寰楀埌浜嗘瀬澶х殑鎻愬崌銆傝$畻鏈哄勭悊閫熷害鐨勫炲姞銆佸瓨鍌ㄨ惧囧归噺鐨勬墿澶т互鍙婂藉甫缃戠粶鐨勬櫘鍙婏紝浣垮緱澶勭悊鍜屽垎鏋愬ぇ瑙勬ā鏁版嵁鎴愪负鍙鑳姐
7銆佺墿鑱旂綉鐨勫彂灞曪細鐗╄仈缃戞妧鏈浣垮緱鍚勭嶈惧囧拰浼犳劅鍣ㄨ兘澶熶簰鑱斾簰閫氾紝骞朵骇鐢熷ぇ閲忔暟鎹銆傞氳繃鐗╄仈缃戜腑鐨勪紶鎰熷櫒鍜岃惧囩敓鎴愮殑鏁版嵁锛屽彲浠ョ敤浜庡疄鏃剁洃娴嬪拰鎺у埗銆佹櫤鑳藉喅绛栫瓑鏂归潰銆傜墿鑱旂綉鐨勫ぇ瑙勬ā搴旂敤鎺ㄥ姩浜嗗ぇ鏁版嵁鐨勮繘涓姝ュ舰鎴愬拰搴旂敤銆
8銆佹斂搴滃拰浼佷笟鏁版嵁寮鏀撅細鏀垮簻鍜屼紒涓氬湪閫愭笎鎰忚瘑鍒版暟鎹鐨勯噸瑕佹э紝骞跺紑濮嬩富鍔ㄥ紑鏀句竴閮ㄥ垎鏁版嵁銆傝繖浜涘紑鏀剧殑鏁版嵁涓板瘜浜嗗ぇ鏁版嵁鐨勬潵婧愶紝浣垮緱鐮旂┒浜哄憳鍜屽紑鍙戣呰兘澶熸洿澶氬湴鍒╃敤鏁版嵁杩涜屽垱鏂板拰娲炲療銆