大数据三巨头_大数据入门书籍有哪些

⑴ 大数据时代的商业法则

大数据时代的商业法则

大数据时代给企业带来了前所未有的商机，在大数据时代，企业必须学会利用大数据精确地分析、导入用户、促成交易，并用最有效率的方式组织生产。在大数据时代，企业必须遵循新的商业法则，否则就会被大数据的浪潮所淹没。

法则1：解读用户的真实需求解读用户的真实需求，就是通过数据的收集、分析挖掘出用户内心的欲望，提高企业产品推送的成功率，并将其转化为企业的订单。

大数据看似神秘莫测，其实在解读用户需求上的操作思路却极其简单，即尽可能掌握用户的个人信息和关注信息。当关注信息指向个人时，就能够相对精准地定义出用户的需求。

在这一过程中，主要的操作模式有两种：静态辐射模式和动态跟踪模式。

静态辐射模式

静态辐射模式的数据分析在一个时间节点上进行，尽量扩大分析对象，并用标签来筛选出最可能成交的用户。这是大数据应用中最典型的一种模式。由于一些大企业主动会进行用户标签的管理，需要大数据助力营销的企业就可以“借船出海”。

标签与购买的关系有两种：一类标签与购买的关系非常明显。例如，一个常常浏览经管类书籍的用户一定是这类书籍的潜在购买者。

另一类标签与购买的关系却并不十分明显。这就需要企业提前进行分析，有时还需要借助第三方专业机构的分析结果。

例如，新浪微博会根据用户平时的浏览和表达为用户贴上“标签”。但是，这些标签与有些购买行为之间的关系就并不明显。金夫人是国内婚纱摄影巨头，他们首先利用自己作为网络大客户的身份，无偿获取了网络提供的婚纱摄影客户调研分析数据，发现美食、影院等标签的用户最有可能购买婚纱摄影产品。利用这一跨数据库的结果，金夫人在新浪微博的平台上锁定了“年龄20～35左右的某地区女性”群体，加上了美食、影院等标签，精准锁定了高转化可能的用户，并购买了平台提供的“粉丝通”服务，对他们进行定向广告推送。一般来说，推送5～6万个用户大约会得到70～80个电话咨询，这种转化过来的电话咨询顾客被称“顾客资源”，从顾客资源到最后的成单，转化率优异，大约在40%。

动态跟踪模式

动态跟踪模式的数据分析在一个时间周期内进行，尽量缩小分析对象，不断通过用户的行为来为用户贴上标签，伺机发现产品推送的时点。由于这种分析针对小群体，无法由第三方机构提供统一的规模化服务，所以，对于企业来说是有高门槛的，需要企业练好内功。这种模式中，企业对于用户不断产生的新数据，要进行随时跟踪，并随时在云端进行处理。

例如，Target超市以20多种怀孕期间孕妇可能会购买的商品为基础，将所有用户的购买记录作为数据来源，通过构建模型分析购买者的行为相关性，能准确地推断出孕妇的具体临盆时间，这样Target的销售部门就可以有针对地在每个怀孕顾客的不同阶段寄送相应的产品优惠券。在一个个例中，他们居然比用户更早知道了她怀孕的信息。

又如，亚马逊基于自己对用户的了解来进行精准营销，在网站上的推荐和电子邮件对于产品的推送成为了促进成交的利器。调研公司Forrester分析师苏察瑞塔·穆尔普鲁称，根据其他电子商务网站的业绩，在某些情况下，亚马逊网站推荐的销售转化率可高达60%。这一转化率远远高于其他电子商务网站，难怪一些观察员将亚马逊的推荐系统视为“杀手级应用”。最新的消息显示，亚马逊已经注册了“未下单、先发货”的技术专利，这是更加精准的需求预判和更加直接的产品推送，他们对于大数据的应用已经是炉火纯青！

法则2：形成社会化协作的生产安排

如果能依靠大数据进行产品推送实现购买，海量需求就会从互联网汹涌而来。这意味着产品的数据增多、涉及原料增多、消费者零散下单……这一变化使得工业时代标准化的产品生产模式受到前所未有的颠覆，生产端需要基于大数据形成前所未有的柔性，来对接消费端的柔性。

互联网商业环境对价值链提出了新的挑战：链条上的采购、生产、物流、分销、零售各环节中，除了生产之外的其他环节也需要强大的数据处理能力，各个环节的数据处理系统和数据本身必须是共享的，而且，这些系统和内容还必须向全社会开放。要达到这种要求，显然应该应用价值链接网，并用大数据来进行生产协调。

大数据的确给价值链重塑带来了机会。在工业经济时代，生产更多地通过“规模经济”来获利，大规模标准化的生产最大程度地降低了单位成本。但在互联网经济时代，生产更应该通过“范围经济、协同效应和重塑学习曲线”来获利，因为，多种类、小规模的生产需要价值链上的灵动协作。

基于互联网这样一个平台，所有的价值链环节可以实现数据共享和集中处理。另外，因为使用统一的数据构架，所以不会出现数据孤岛，浪费有价值的数据。由此，价值链各个环节之间可以无缝链接，实现最敏捷、最合理的生产。基于互联网这样一个平台，企业入围合作即可以获得充分的信息，也不再会遭遇太高的学习门槛。更厉害的是，用户参与生产也变得容易，模块化的选择题，让业余者也可以发出专业的需求信号。由此，从始端原料的生产者到终端的消费者，全部都被植入了价值链（或称为价值网），社会化协作得以真正实现。而在大数据出现以前，这几乎是不可能的！

顺应法则赢未来

独具特色的大数据商业法则，将会引发未来商业格局的变化。未来的赢家，将属于能够适应新的商业法则和新的商业逻辑的代表者。

在用大数据掘金的世界，谁掌握大数据，并能利用大数据实现上述两大商业法则的变革，谁就能赢得未来。

因此，我们可以肯定地判断出，掌握了大数据的资源整合类企业，将会成为大数据时代的企业赢家。这类企业是商业生态（价值网）中的“舵手”，通过灵敏地识别市场需求，指挥网络成员协同生产，获得组合创新优势。由于控制了整个网络，此类企业拥有网络收益的剩余索取权，往往获利最为丰厚。工业经济时代，企业是依赖品牌、声誉和社会资本实现资源整合。互联网时代，资源变得无限丰富，协作变得极度频繁，企业更需要依靠大数据来发现需求、整合资源。可以这样说，掌握了大数据，这类企业就知道“用户要什么，哪里有什么，如何用资源去满足用户需求”。

未来的资源整合企业将基于大数据来运作。维克托·迈尔·舍恩伯格等人在《大数据时代》中，将基于大数据的资源整合企业分为三种：第一种是掌握数据的企业，这类企业掌握了端口，掌握了数据的所有权；第二种是掌握算法的企业，负责处理数据，挖掘有价值的商业信息，这些企业被称为“数据武士”；第三种是掌握思维的企业，他们往往先人一步发现市场的机会，他们既不掌握数据技能，也不掌握专业技能，但正因为如此才有广阔的思维，能够最大程度串联资源，形成商业模式，他们相当于“路径寻找者（pathfinder）”。

按照各自生产要素的价值性和稀缺性，很难说哪类企业真正将在大数据的商业模式中获益，三类企业各自有各自的贡献，各自有各自的稀缺之处。

ITASoftware是美国四大机票预订系统，是一个典型的掌握数据的企业，其将数据提供给Farecast这家提供预测机票价格的企业，后者是一个典型的掌握算法和思维的企业，直接接触用户。结果，ITA Software仅仅从这种合作中分得了一小块收益。

Overture是搜索引擎付费点击模式的鼻祖，如果把谷歌看作是媒体，那么Overture则是相当于广告代理公司，通过算法细分不同的浏览用户，向广告投放企业提供目标用户的付费点击（选出他们最需要的用户）。Overture是典型掌握算法和思维的企业，雅虎、谷歌则是掌握数据的企业。事实上，谷歌的两大金矿AdWords和AdSense技术，都是借鉴了Overture的算法。但是，Overture不能直接接触到用户，没有数据，丧失了话语权，只能获得少量收益，以至于最后被雅虎收购。

基于大数据的资源整合类企业，它们的生态链又将遵循两个法则。

法则一：接触用户的企业总是能够获得最多的收益，这和价值链上的分配原则是高度一致的。终端价格和原料供应之间的差价全部是由售卖终端产品的企业获取的。

法则二：掌握数据的企业具有这个商业生态内最大的议价能力，最终最有可能成为赢家。算法可以攻克，也可以购买，事实上，挤入这个行业的企业并不在少数。而思维则存在一种肯尼斯·阿罗所说的“信息悖论”，即信息在被他人知晓前都价值极高，但却无法被证实。一旦公开证实它，又因所有人都知道而失去了价值。所以，不管思维和算法企业走得多快，只要数据企业随时可以封锁数据源，就依然把握着“杀手锏”。甚至，有的数据企业在看不清楚商业模式时，将数据释放让思维和算法企业进行试错，而一旦试错成功，则收回数据所有权，模仿其商业模式。

BAT的数据帝国

因此，我们可以说，在大数据时代，资源整合企业的竞争，将会决定未来商业世界的版图。

在很多人还没有弄清楚大数据时代的商业法则时，国内互联网三巨头BAT（网络、阿里、腾讯）已经在迅速地构建自己的“数据帝国”。

在互联网的大世界中，用户有诸多的入口，可以通过不同的APP上传数据。BAT的原则是，有关吃穿用住行的一切服务商，只要能够增加他们的数据种类和质量，他们通通拿下。这里，体现出一种典型的“数据累积的边际收益递增效应”，即每多增加一个单位的数据，可挖掘的价值就有一个加速的增长，每增加一个种类的数据，可挖掘的价值就有一个加速的增长。某些时候，BAT甚至根本不考虑数据在现阶段能否变现为收益，仅仅是纳入麾下，等待未来的开发。

现实的情况是，经过了几轮的收购之后，BAT基本上覆盖了吃、穿、用、住、行、社交等各个领域的数据入口，加之其原来的庞大数据入口，在数据规模上的优势已经无与伦比。短时间内，任何企业想要超越他们，几乎都是不可能的。

BAT不仅是在做掌握数据的企业，也是在做掌握算法和思维的企业。一方面，拥有庞大的商业用户群和拥有用户群消费偏好的大数据，只要具有相应的内容，就可以形成成交、获取收益。另一方面，他们甚至可以开放应用程序接口（APIs）把自己掌握的数据授权给别人使用，这样数据就能够重复产生价值。这方面，阿里巴巴的百川计划就是一个典型。简单来说，他们向其他厂商的APP免费开放数据，但他们不收费，仅仅需要他们回馈数据作为代价。这个计划实施以后，所有的APP都会是他们的入口。

可以说，BAT的帝国是基于数据建立的。甚至有人预言，数据作为“表外资产”一定会在某个时候被会计准则纳入。因为，相对于无形资产，这种资产的价值更大。

值得一提的是，传统工业经济思维的人根本看不懂大数据时代的商业逻辑。某学者曾对阿里巴巴的收购（零售、文化、金融等）提出过质疑，他列举苹果和谷歌收购的案例，认为他们都是在进行专业领域的收购，这是有利于增强竞争力的，但阿里进行的都是多元化收购，是不利于增强竞争力的。

实际上，这是没有看懂阿里巴巴商业模式的表现。互联网时代的大多数商业模式，早就脱离了行业的限制，而在某种程度上走向了“大一统”，即“导入流量+大数据分析变现流量”。这种模式里数据就是通用的逻辑，难怪在大数据出现时，维克托·迈尔·舍恩伯格等人就断言，行业专家和技术专家的光芒会被数据专家掩盖住，因为后者不受旧观念的影响，能够聆听数据发出的声音。

尽管BAT强悍如斯，但在他们的夹缝中，仍然有一些商机，企业也可以搭建入口、解读需求、安排生产。如果说大数据改造商业的神奇已经毋庸置疑，那为何众多企业依然拿不起放在眼前的这把金钥匙？很大程度上是因为这些企业缺乏数据基因。

大数据和互联网经济的来袭，使得企业只能“被动接网”。面对海量的潜在需求，不仅无法解读，也无法调动生产进行对接。这就出现了大量企业被互联网的海量需求“反噬”，并导致供应链失控的案例。

在大数据时代，企业规模、资金、生产技术不再重要，品牌也不再拥有神力。获取数据、分析处理数据、挖掘数据价值的能力成为企业的立身之本。目前我国大部分企业还没有意识到我们已经进入大数据时代，就像我们大多数消费者没有意识到我们的消费行为随时在被计算一样。在这样的一个时代，只有建立在数据之上的企业、按照大数据时代的商业法则运营的企业才能更好地生存。

以上是小编为大家分享的关于大数据时代的商业法则的相关内容，更多信息可以关注环球青藤分享更多干货

⑵ 中国互联网公司老三大巨头是哪几个

前段时间是BAT---网络、阿里、腾讯，现在是ATM---阿里、腾讯、小米，根据福布斯来排名的。希望回答对您有帮助！！！

⑶ 最新的全球十大互联网公司是哪十个

1、苹果，目前市值7493亿美元。主营业务是苹果手机，平板电脑，智能手表等一系列以iOS为中心的生态闭环，理所应当市值第一。
2、微软，目前市值4025亿，以PC操作系统起家，目前在移动互联网的大潮中走下坡路，旗下WP移动移动份额只有4%左右，远没有PC的优势。未来之路不怎么看好。
3、谷歌，目前市值3737亿美元。旗下有全球最大的搜索引擎，最大的手机操作系统。未来的发展将会超过苹果和微软。
4、Facebook，目前市值2252亿美元，它全球最大的社交平台，月活跃用户超过13亿人，收购了最大的即时通讯平台whatsapp，活跃用户超过8亿。目前移动端广告开始发力，营收开始强劲增长。未来前途不可限量。
5、阿里巴巴，目前市值2051亿美元，全球最大的网络零售商，年交易额超过一万亿，在双十一狂欢节上一天交易额超过350亿元。它目前的主要业务在中国，目前在向世界扩张，它深刻的改变了中国的零售业。
6、亚马逊Amazon，目前市值1994亿美元，世界最大的网络商城，商品和服务的质量无可挑剔，是中国京东的老师傅。而且亚马逊的云计算是全世界范围内的第一名，未来肯定有它的一杯羹。
7、腾讯，目前市值1955亿美元。它是中国最大的社交网络平台，拥有两艘巨型平台：QQ和微信。QQ是电脑必装，微信是腾讯的移动互联网船票。在中国是一个巨无霸，出了国门却并不顺利，微信出海走的并不顺利，目前只是在亚洲市场有一定市场。
8、网络，目前市值760亿美元，中国第一的搜索引擎。是中国互联网三巨头市值最低的一个，不过网络的大数据和人工智能正在发力，移动营收是三巨头占比最高的，网络现在还没有掉队。
9、ebay，目前市值714亿美元，它的商业模式和淘宝一样都是C2C平台，不过它在平台中收费，被淘宝的免费打的一败涂地，基本上已经在中国市场消失匿迹。不过在欧美市场还是很受欢迎，旗下有全球最大的第三方支付平台paypal，潜力不可小觑。
10、priceline，目前市值648亿美元，是美国最大的旅游信息服务平台，和中国的携程业务很相似。市场潜力一般，没有自己独特的护城河。
希望能帮到你，望采纳！

⑷ 互联网三巨头垄断严重，国家是如何反垄断的

与人类短暂的几百年商业史相比，垄断的历史更短，只有一百多年。在大部分时间里，反垄断政策一直处于尴尬的地位，垄断和竞争的分界线既有水火不相容，也有暧昧。反垄断的呼声也高涨或成为默许的状态。

在中国，BAT三大企业的垄断地位已经不言而喻。 2010年谷歌退出中国市场后，网络独自走遍世界，约占搜索市场总收入的7成左右。从交易规模来看，阿里巴巴占中国网上交易额的80%。在某种程度上，蚂蚁一家拥有中国80%的网络入口流量。把这些流量注入金融，金融业就会出现新的蚂蚁。把这些流量注入旅行，旅游业就会产生新的蚂蚁。关于腾讯，微信的月活动账户数达到5亿，QQ的月活动账户数达到8.15，约占中国总人口的6成。

如果我国监督当局也承认互联网的中立性，政府允许某企业独占互联网的入口吗？

比如微信网络的入口不是公司的事，而是整个市场的公共产品，这和高速公路的入口不应该被民营企业把持是一样的道理。

网络的自然垄断属性和中立性提醒监管者应该关注这个市场。但是在过去的十年里其中，对互联网公司的反垄断调查一直没有进展，其中最重要的原因是现有的反垄断法没有完全适用于互联网公司。垄断的最终表现是定价权，但互联网是免费的，价格是零。但是，垄断只是监管的必要条件。因为人们对数字垄断缺乏更深更彻底的理解。虽然在法律层面还处于观察阶段，但网络的监督管理应该尽快全面纳入政府的议事日程。

⑸ 三巨头强强联合，虚张声势还是大有可为时间会告诉我们答案

近两年无数新势力汽车品牌的诞生让消费者眼花缭乱，正在我们感慨有多少品牌能活下去的时候，有一个“新物种”横空出世了。

它是由上汽集团、浦东新区、阿里巴巴集团共同出资创立的全新高端汽车品牌——智己汽车，名字取自《周易》，意为以智慧周全万物，“智己汽车”则寓意缔造人车共生的智慧出行新时代。

看似低调却实力雄厚，三巨头强强联合

从logo到名字，这个新品牌的突然出现弄得我是云里雾里，咱先来好好捋一捋。其实早在大概三四年前，上汽集团董事长陈虹就已批准启动了智己汽车整体技术架构规划，而且与整车项目同时起步的还有一系列核心技术的研发和布局，智己汽车从那时起开始慢慢筹备。

但前途依然未知，毕竟长安、东风、北汽、广汽等都有类似的做法，而且新势力品牌与互联网大厂联手的行为也比比皆是，车企不是一个人在战斗。在这场传统与科技的融合中，谁的综合实力最强，谁才能笑到最后。

本文来源于汽车之家车家号作者，不代表汽车之家的观点立场。

⑹ 大数据入门书籍有哪些

1、舍恩伯格的《大数据时代》；
2、巴拉巴西的《爆发》；
3、涂子沛的《大数据》

⑺ 学大数据未来好找工作吗

行业近况：近年来，中国互联网三巨头 BAT( 网络、阿里、腾讯) 均耗费巨资投入大数据发展，纷纷建立大数据研究院、大数据实验室等，提供大数据专业服务，一批大数据专业分析公司也应运而生。

《大数据人才报告》显示，当前我国的大数据人才仅仅 46 万人，以后的 3 ～ 5 年大数据人才缺口将会高达 150 多万。就目前情形来看，大数据将会成为最具有发展前景的行业。

大数据分析师、大数据高级研发师等更被称为 21 世纪最具潜力的职业。目前，在中国的人才市场上对大数据人才的供应是非常紧张的，因此，大数据人才的就业前景非常不错，工资高。

当前，大数据的相关职位需要的是典型的高素质复合型人才，一专多能是其突出特征，要求其能够对数学、数据分析、深度学习、人工智能、机器学习和自然语言处理以及行业业务理解等多方面知识综合掌控。对于数学类专业的学生，如果能够成为这种高素质复合型人才，将会在市场中拥有持续的、较强的竞争力。

⑻ 大数据时代的大变革

大数据时代的大变革
在云计算仍处于“云里雾里”而亟待落地的今天，IT的浩瀚天空中突然传来了天使的号角声——大数据时代来了！大数据，开启了一个彻头彻尾的变革年代，更开启了一个蕴含无穷多机会的年代。谁能够“号准”大数据时代的“脉搏”，谁就能够在全球IT业的新一轮角逐中独领风骚。
令人充满想象的大数据，究竟“大”在何处？
今天，我们再也不能用狭隘的视角来审视大数据了。因为今天的大数据，不仅体现为数据量的惊人增长，更前所未有地引入了正在不断扩展中的数据类型。从量的增长来看，IDC报告显示，未来10年全球大数据将增加50倍。而刚刚过去的2011年，就产生了1.8ZB（1.8万亿GB）的大数据，这相当于每个美国人按每分钟发3条微博的速度，不停发布2.6976万年。与此同时，社会上的各行各业，从电信、IT业，到金融、证券、保险、航空、酒店服务业等，地球上的各种存在，从每个人到每棵树、每朵花乃至每粒沙子，无一例外地都在成为大数据的生成者。在量和面上的双重积累，让我们不难想象和接受数据大爆炸的现实——2020年的全球数据使用量将达到35.2ZB（1ZB=10亿TB）。
犹如一座富矿的大数据，究竟该如何“开采”？
这是一个令人着迷的问题，因为与正确答案相伴的将是谁都渴望的巨大商业成功。当前，伴随着变革的发生，传统的互联网企业已经站在了大数据时代的最前沿。作为探索的先锋，他们能否笑到最后，是否会成为“先烈”？这一问题尽管很难回答，但至少为成功的觊觎者提供了充分的借鉴和参考。
作为后PC时代的四大巨头，Facebook、谷歌、苹果、亚马逊正在成为大数据的拥有者和使用者。在自觉或不自觉间，Facebook已然成为业界第一个生成大数据的“巨鳄”，而其他三巨头仍在努力中。苹果依靠操作系统和颠覆性的终端，正在努力打造大数据的生成之地；谷歌主要依靠操作系统、搜索引擎和“Google+”平台整合终端产品，以储备可以利用的大数据；亚马逊作为云计算的最早倡导者之一，则通过网络平台、云计算平台和阅读终端，期望建立起一个电子商务垂直领域的大数据汇集地。虽然巨头们的策略各有不同，但利用种种手段整合碎片化的数据进而加以利用的趋势，已经再明显不过了。
相比这四大巨头，电信运营商的探索才刚刚起步。“日内瓦的电信运营商，正在针对市民活动的可视化展开研究。”天云科技副总雷涛在近日举行的云计算大会云基地专场上指出，“通过在用户手机上安装传感器，就能够记录下大量的位置信息，从而使得市民活动可视化，这对建立一个智慧城市，进行人口规划、区域规划都具有重要意义。”事实上，一个个再简单不过的位置信息背后，隐藏着巨大的、待挖掘的价值，这个价值对于各行各业都具有关键的作用。例如，房地产开发商就很渴望知道高端用户最频繁出入的区域，而这些区域就是商业地产的最佳候选地。而除了位置信息外，电信运营商能够挖掘的信息和数据，仍有无穷无尽的空间，包括了用户喜好、消费能力等等。
在企业的自发行为以外，国家级的战略支持已经浮出水面。美国，作为ICT强国，嗅觉最为敏锐。2012年3月29日，奥巴马政府公布了“大数据研发计划”，目标在于改进当前人们从海量和复杂的数据中获取知识的能力，而这是美国继高速网络和超级计算中心之后的另一个重大科技项目。据悉，首批共有6个联邦部门宣布投资2亿美元，共同提高收集、储存、保留、管理、分析和共享海量数据所需核心技术的先进性，并形成合力，同时增加大数据技术开发和应用所需人才的供给。显然，先行一步的美国，已经把大数据当作了其ICT产业再度在全球崛起的重要契机。在找准了崛起的方向之后，富有行动力的美国，自然就会毫不拖泥带水地实施下去。
大数据，正在撬动全世界的神经，无论是国家、企业，还是每一个独立存在的个人，都将成为大数据时代的贡献者和受益者。但问题是，你准备好了吗？

⑼ hadoop是不是已经快过时了

Hadoop即将过时了吗？
Hadoop 这个单词如今铺天盖地，几乎成了大数据的代名词。仅仅数年时间，Hadoop 从边缘技术迅速成长为一个事实标准。如今想玩转大数据，搞企业分析或者商业智能，没有 Hadoop 还真不行。但 Hadoop 狂热的背后却酝酿着一场技术变革，Hadoop 的核心技术在 Google 那里已经过时，因为 Hadoop 并不擅长处理“快数据”。

今天，Hadoop 似乎已经毫无争议地成了企业大数据技术标准，看上去 Hadoop 将根植企业，其地位在未来十年似乎都不会动摇。但是 GigaOM 的专栏作家 Mike Miller 却发出了“不和谐”的声音：“企业真的会为一个盛极而衰的技术买单吗？”
起源：Google 文件系统和 Google MapRece
为了探讨 Hadoop 的生命周期我们需要回溯 Hadoop 的灵感源泉——Google 的 MapRece。为了迎接数据大爆炸的挑战，Google 的工程师 Jeff Dean 和 Sanjay Ghemawat 架构了两个影响深远的系统：Google File System（GFS）和 Google MapRece（GMR）。前者是一个能在通用硬件上管理 EB（Exabyte）级数据的出色的可行方案。后者则是一个同样出色的，能在通用服务器上大规模并行处理数据的模型设计实现。
GMR 的出彩之处在于能够让普通的 Google 用户和开发者也能够进行高速、容错的大数据处理。GMR 和 GFS 成了搜索引擎数据处理引擎的核心，该引擎抓取、分析并分级 web 页面，并最终为用户呈现日常搜索结果。
Hadoop 生态系统
我们再回头看看 Apache Hadoop 的两大组成部分：Hadoop 分布式文件系统和 Hadoop，确实就是 GFS 和 GMR 的翻版。虽然 Hadoop 正在发展成为一个无所不包的数据管理和处理生态系统，但是在这个生态系统的核心，依然是 MapRece 系统。所有的数据和应用最终都将降解为 Map 和 Rece 的工作。
Google 已经进化，Hadoop 能否跟上？
有趣的事情是，GMR 已经不再占据 Google 软件堆栈中的显赫位置。当企业被 Hadoop 解决方案锁定到 MapRece 上时，Google 却已经准备淘汰 MapRece 技术。虽然 Apache 项目和 Hadoop 商业发行版本试图通过 HBase、Hive 和下一代 MapRece（亦即 YARN）弥补 Hadoop 的短板。但笔者认为只有用全新的，非 MapRece 架构的技术替代 Hadoop 内核（HDFS 和 Zookeeper）才能与谷歌的技术抗衡。（这里有一个更加技术性的阐述：gluecon-miller-horizon）
增量索引过滤器（Percolator for incremental indexing）和频繁变化数据集分析。Hadoop 是一台大型“机器”，当启动并全速运转时处理数据的性能惊人，你唯一需要操心的就是硬盘的传输速度跟不上。但是每次你准备启动分析数据时，都需要把所有的数据都过一遍，当数据集越来越庞大时，这个问题将导致分析时间无限延长。
那么 Google 是如何解决让搜索结果返回速度越来越接近实时的呢？答案是用增量处理引擎 Percolator 代替 GMR。通过只处理新增的、改动过的或删除的文档和使用二级指数来高效率建目录，返回查询结果。Percolator 论文的作者写道：“将索引系统转换成增量系统…将文档处理延迟缩短了 100 倍。”这意味着索引 web 新内容的速度比用 MapRece 快 100 倍！
类似大型强子对撞机产生的数据将不断变大，Twitter 也是如此。这也是为什么 HBase 中会新增触发流程，而 Twitter Storm 正在成为实时处理流数据的热门技术。
用于点对点分析的 Dremel。Google 和 Hadoop 生态系统都致力于让 MapRece 成为可用的点对点分析工具。从 Sawzall 到 Pig 和 Hive，创建了大量的界面层，但是尽管这让 Hadoop 看上去更像 SQL 系统，但是人们忘记了一个基本事实——MapRece (以及 Hadoop)是为组织数据处理任务开发的系统，诞生于工作流内核，而不是点对点分析。
今天有大量的 BI/分析查询都是点对点模式，属于互动和低延迟的分析。Hadoop 的 Map 和 Rece 工作流让很多分析师望而却步，而且工作启动和完成工作流运行的漫长周期对于很多互动性分析来说意味着糟糕的用户体验。于是，Google 发明了 Dremel（业界也称之为 BigQuery 产品）专用工具，可以让分析师数秒钟内就扫描成 PB（Petabyte）的数据完成点到点查询，而且还能支持可视化。Google 在 Dremel 的论文中声称：“Dremel 能够在数秒内完成数万亿行数据的聚合查询，比 MapRece 快上 100 倍！”
分析图数据的 Pregel。Google MapRece 的设计初衷是分析世界上最大的数据图谱——互联网。但是在分析人际网络、电信设备、文档和其他一些图数据时就没有那么灵光了，例如 MapRece 在计算单源最短路径（SSSP）时效率非常低下，已有的并行图算法库 Parallel BGL 或者 CGMgraph 又没有容错。
于是 Google 开发了 Pregel，一个可以在分布式通用服务器上处理 PB 级别图数据的大型同步处理应用。与 Hadoop 经常在处理图数据时产生指数级数据放大相比，Pregel 能够自然高效地处理 SSSP 或 PageRank 等图算法，所用时间要短得多，代码也简洁得多。
目前唯一能与 Pregel 媲美的开源选择是 Giraph，这是一个早期的 Apache 孵化项目，调用了 HDFS 和 Zookeeper。Githb 上还有一个项目 Golden Orb 可用。
总结
总而言之，Hadoop 是一个可以在普通通用硬件集群上进行大规模数据处理的优秀工具。但是如果你希望处理动态数据集、点对点分析或者图数据结构，那么 Google 已经为我们展示了大大优于 MapRece 范型的技术选择。毫无疑问，Percolator、Dremel 和 Pregel 将成为大数据的新“三巨头”，正如 Google 的老“三巨头”：GFS、GMR 和 BigTable 所做的那样。

⑽ 实现商业突破的关键点—大数据

实现商业突破的关键点—大数据
大数据可以说是近来年最火热的一个话题。微博等社交化媒体因其独特的开放性特征，也成为大数据利用最令人关注的领域。
而这两年，随着微博、微信等社交平台商业化尝试的深入，及其结果的不尽如人意，大数据的利用成为了一个能否实现商业化实质突破的关键点。而这个点的关键又在于社交平台是否能做到对大数据的真正开放。
对于社交平台大数据开放，行业关注点现在主要在集中在两方面：其一是社交平台大数据究竟价值几何？其二，是基于这一大数据，平台方能给出怎样的的全面开放政策，以及这类政策的持续和稳定性又如何。
社交平台的数据价值
要了解社交平台大数据的价值，首先要搞清楚的是，开放平台合作伙伴们是如何利用这一大数据的。
化繁为简，我们将其概括为三步：首先是对平台所产生的庞大数据进行分析；然后，通过分析获得数据背后的用户诉求；最后，针对用户诉求进行个性化、精确化和智能化的信息推送和服务推广，并最终实现吸引用户点击、消费的目标。
举个简单例子，比如有用户在微博分享地理位置、景点等信息时，其广告模块就会快速精准的为其推荐相关的机票、酒店等信息。
而实现这一所有流程的起始点，就在于用户在社交网络上的生活化分享。而这也正是社交网络大数据的价值所在。
此外，企业通过社交大数据的分析和处理，还可以低成本的进行舆论监控，极大降低了企业品牌危机产生和扩散的可能。
开放尺度定成败
大数据的价值只是基础，要实现智能营销，一个重要层面还在于第三方能从多大程度上利用到这一数据进行挖掘。
而这也包含了两个层面，首先是API开放多样性，其次是数据的完整性。
在API开放方面，一直以来行业对开放平台期待最多的公司要数新浪。新浪初期也的确不负众望，给予了第三方开发者近百个API接口，可谓相当丰富。在2012年前后，通过这些接口，也密集涌现出了很多基于新浪微博大数据的创业公司，盛况空前。
然而这种基于开放而联姻的蜜月期还没来得及令人回味，新浪对于API开放的态度却在近期发生了转变。如在去年，新浪微博便关闭了其开放平台的私信接口，今年更是对开放平台接口做了进一步收紧（对当前授权应用只能读取授权该应用的当前用户微博，不能获取其他用户微博；同时，当前授权应用只能读取授权该应用的当前用户的关系，不能读取其他用户的关系。）。
而这种收窄的姿态，在阿里巴巴入股新浪微博之后，愈趋明显。
众多开发者表示，其多款应用的数据已被清空或者api接口被停用。现在新浪开放平台的每次更新也是删的多，增的少，而增加的功能也大多都是可有可无的。
开发作为当下互联网的一个趋势（网络、阿里巴巴、腾讯【简称BAT】三巨头都在谈开放），新浪微博反其道而行之，当然，新浪对API开放性的收缩，我们要承认其一些深层次的因素考量。比如之前私信端口的开放，就造成大量垃圾信息对用户的骚扰；以及与阿里联姻后，来自阿里方面的诉求和压力等。
与此相比，一直以来不声不响的腾讯微博倒在开放平台上做出了不少动静。比如，国内唱吧、啪啪，国外cooliris都选择了腾讯微博，甚至IOS7系统也首次开放IOS-SDK给腾讯微博。
其次说到开放的完整性，所谓数据完整性就是当开发者请求某种数据时，开放平台是否对返回数据的数量有所限制。这点也最能反映出一个平台的真实开放程度。
以最基本的获取一个用户的”粉丝列表“为例，新浪，对于一般授权用户，最多只能获得5000个最新粉丝信息，而腾讯则没有任何的限制。
腾讯副总裁刘炽平曾在其内部讲话中曾提到：“关键路径要有用户价值，如果没有用户价值，这里放一个流量，那里放一个流量，价值不大。” 而这句话也正点明了大数据开放的本质应该是什么。
行业皆知，只有数据挖掘精准度在85%以上时，才具备实现精准营销的条件。如数据挖掘不够精准，就会直接影响到广告营销的投放效果。而数据不完整，数据挖掘的精准度只是空谈而已。
而数据完整开放的重要性，还不仅仅限于第三方开放者，对于社交平台本身，在提升用户体验方面也息息相关。
比如腾讯微博最近上线的微圈、微热点、微频道、微博管家等产品，就是通过数据挖掘技术，抽取用户阅读时间线中来自游戏、活动、第三方应用等营销和广告微博，并将其过滤，从而进一步减轻垃圾信息对于微博用户的骚扰，从而使用户更高效的获取优质微博信息，最终实现用户阅读体验的提升。
这种将大数据挖掘产品化的路子，应该说值得借鉴。因为一方面，它能比较充分的满足第三方开发者需求；更重要的是，这并不以影响用户端的产品体验为代价，实施得好的话，可形成一个良性闭环模式。

导航:首页 > 网络数据 > 大数据三巨头

大数据三巨头

与大数据三巨头相关的资料

友情链接