明略大数据平台_大数据洞察有哪些特色大数据营销案例大数据企业

『壹』国内有哪些大数据公司

一线互联网巨头都有涉及大数据业务，下面主要介绍的是一些创业型大数据公司，加粗的是该大数据细分领域的佼佼者！

1、TalkingData数据增值服务

2、碳云智能医疗大数据

3、数梦工场政府大数据

4、九次方政府大数据

5、百分点大数据解决方案

6、同盾科技数据安全

7、百融金服金融大数据

8、友盟数据增值服务

9、通用数据数据存储

10、EverString营销大数据

11、海智BDP数据可视化

12、秒针系统营销大数据

13、AdMaster营销大数据

14、光音网络营销大数据

15、亿玛在线营销大数据

16、数据堂数据交易

17、明略数据大数据解决方案

18、星环科技基础技术平台

19、数联铭品大数据解决方案

20、品友互动营销大数据

21、金电联行金融大数据

22、国政通数据交易歼铅悄

23、亚信数据大数据解决方案

24、晶赞科技营销大数据

25、永洪科技数据可视化

26、集奥聚合数据增值服务

27、聚合数据数据交易

28、华院数据大数据解决方案

29、医渡云医疗大数据

30、昆仑数据工业大数据

31、国信优易数据交易

32、邦盛金融基础技术平台

33、银联智慧数据增值服务

34、中澳科技公安大数据

35、时趣互动营氏渣销大数据

36、GrowingIO数据分析

37、美林数据工业大数据

38、人大金仓基础技术平台

39、明朝万达数据安全激银

40、国双科技数据可视化

41、海云数据数据可视化

42、翱旗科技大数据解决方案

43、DataEye泛娱乐大数据

44、通付盾数据安全

45、TrustData数据增值服务

45、数云信息营销大数据

46、智慧足迹数据增值服务

47、奥维云网数据交易

48、巨杉数据库数据存储

49、普林科技大数据解决方案

『贰』北京明略科技公司是大公司吗

是大公司。

明略科技是北京明略昭辉科技有限公司旗下数据中台和企业智能决策平台提供商，致力于通过大数据分析挖掘和认知智能技术，推动知识和管理复杂度高的大中型企业进行数字化转型。

明略科技的数据中台帮助企业采集和集成多源异构数据，整合大数据、物联网、知识图谱和多模态人工智能技术，将正确的数据推送给决策者，提高组织内营销和运营的透明、安全、稳定。

同时，明略科技企业智能决策平台，通过连接企业中的人与机器，不断积累组织知识资产并将其程序化，最终实现具有分析决策能力的高阶人工智能应用，让组织内部高效运转，实现人机同行的美好世界。

品牌发展：

2020年8月Gartner发布了2020人工智能技术成熟度曲线报告，明略科技入选知识图谱样本供应商(Sample Vendor)中；2020年5月份，CBinsights发布中国企业服务榜单，明略科技入选基础设施类 “BI&大数据分析公司“；2020年1月份，机器之心2019人工智能年度奖项发布，明略科技荣获：全球三十大最佳 AI 创业公司。

2019年6月《麻省理工科技评论》50家聪明公司榜单正式发布，明略科技上榜。2019年5月份数博会上明略科技产品明智系统荣获“2019领先科技成果奖—黑科技“。2019世界人工智能大会，科技部宣布依托明略科技集团建设“营销智能“国家新一代人工智能开放创新平台。

2019北京电视台第九届“北京影响力”榜单发布，明略科技荣获“最具影响力十大企业”。2018年10月，第八届吴文俊人工智能科技奖发布，明略科技吴文俊人工智能科技进步奖企业技术创新工程项目。

『叁』闲话国内大数据发展简史&产业化落地

文·blogchong

之所以想要说一说这个话题，是因为下午在技术群中不经意间，就类似话题进行了比较剧烈的脑暴讨论。

讨论范围包括了互联网公开数据的挖掘、价值变现、数据获取的合法性以及数据产业落地等相关方向。

当时就一直在思考这个问题，后续完了自己又想了几遍，发现确实有所得，也挺多东西想表达一下的。

大数据是在2009年开始相对比较正式引入国内的，基本上与Hadoop的“入侵”国内同步。

但在那时其实并没有实际落地的东西，除了一些大公司在试探性使用，直到2012-2013年，国外已经完成一轮“探险”，国内才陆续开始思考大数据如何落地的事了。

确实是这样的，国内在新技术领域上，一向落后于国外半拍，而我也恰恰也是在那个时候“入坑”的。

那个时候其实很多公司企业(除了当时BAT内部使用的案例)，也是在尝试性的涉足大数据领域，一边追逐技术的完善，一边在探索大数据与实际业务的结合点。

直到2014年，算是大数据在国内的一个爆发点，正式的转折点。

首先，以Hadoop为代表的生态趋于成熟，甚至结合内存处理领域、数据实时处理领域，已经形成了一套完整的大数据平台技术解决方案。

其次，已经越来越公司结束了探索性实验，用实际的成果尝到了大数据这种处理模式的好处，已经形成了越来越多的实际可参考的良性案例。

当然，最重要的是确实存在实际的规模数据处理的需求。其实这个需求一直存在，只是很多时候没有找到合适的契机爆发出来。

也就是从2014开始，大数据的人才市场需求在急剧扩增，很多其他IT领域开发人员纷纷转型到数据行业，其中以逐渐没落的传统IT行业为代表。

有人才市场需求，进一步促进了大数据培训市场的发展，各种大数据培训机构如雨后春笋般的出现。

其实这也是没办法的事，因为当时还没有哪个高校开设有大数据相关的课程呢。

当然，这波浪潮同样卷到了学术界，部分高校也意识到了这个技术大势，陆续有不少高校开始开设大数据相关的专业课程。

2015年，随着互联网的发展，市场各种互联网应用需求的饱和，导致了流量红利的消失，让很多企业公司不得不考虑通过数据来提升效率以及推进用户体验，例如推荐系统、个性化服务等。

资本市场从2014-2015年逐渐介入，进一步促进各大互联网企业公司向数据化转型，使得大数据这个领域进一步达到高潮。

我们知道，资本市场算是迎来半个寒冬，流量红利的消失，o2o在15年底都死的差不多了，16年让资本市场变得更谨慎。

但是，就算是这样，国内很多以大数据为技术驱动的公司依然拿了不少融资，包括神策、诸葛IO、GrowingIO等第三方数据分析公司，明略数据等这种针对于服务偏传统行业的数据公司，甚至如DataEye类似垂直领域的数据分析公司都活的好好的。

同时，在国家政策方面，2016年可谓是大数据的国家政策元年，各种国家政策开始偏向大数据。

这意味着，大数据已经从半个风口的状态，过渡到理性、稳健的状态，这是一个良性的状态。

正如上面所说，目前大数据已经逐渐从“潮流”这种略带风险性的标志状态，过渡到稳健、良性发展的状态。

提前“入坑”的童鞋，相信已经享受到“潮流”带来的部分福利，包括比其他普通IT同行们略高的薪酬待遇，以及更多、更自由的选择性等。

好吧，其中也包括我了~~ 哈哈

那么，后续会是一种什么样的情况呢？

首先，数据化依然会是一个不可逆的趋势，在资本以及政策的驱动下，更多的公司会逐渐的进行数据化，甚至包括很多传统IT产业，一样挡不住这个大势。

那么在人才市场需求上的情况呢？个人感觉需求还是在的，因为市场远没有达到饱和，但是福利待遇会有所下降。

这是为什么呢？

2016-2017年，各大高校逐渐会开始投放专业的“正规军”，是的，那些大数据专业的学生们将被正式投放到市场中了。

此外，从2014年到2016年，大数据的培训市场一直在增加的，不管是线上的还是线下的。

这意味着，每年，哦不，应该是每几个月都会有大量的大数据速成工投放到人才需求市场中。

最重要的一点，经过四五年的大浪淘沙，市场已经有一大批“自学成才”的“老司机”可以撑起场面了。

在人才需求以及人才的待遇上，而不是一才难求的现象了，也会逐渐的趋于良性，趋于理性(之前写过一篇大数据招聘乱象的文章，喜欢可以看看《你们是不是真的很缺大数据工程师？》 )。

所以，如果你从大学刚毕业出来，发现大数据没有传说中那么“香馍馍”，也不要奇怪；而从大数据培训流水线上下来的童鞋们，也需要做好准备，薪水可能无法跟你想象中那样了，翻个几倍之类的。

不过“老司机们”到不用太过于担心，虽然大数据的人才市场趋于日渐饱和，但是“驾龄”足够，“车”开的足够溜的，依然只有那么一小戳人。

你依然是稀缺资源，所以不要怕怕。

你看我就不怕怕，哈哈~~

虽然，这一切看似良好，但是有些东西依然值得我们更进一步的深思。

正如之前在技术群中进行脑暴讨论的那样，这几年大数据虽然市场需求不少，但是依然难以达到产业化的状态。

这里贴一个产业化的概念：产业化是指某种产业在市场经济条件下，以行业需求为导向，以实现效益为目标，依靠专业服务和质量管理，形成的系列化和品牌化的经营方式和组织形式。

目前大数据的实际落地形式大部分都以辅助、加速其他业务为主，起一个催化剂，提升效率，加快速度的作用，鲜有看到以大数据作为独立产业而存在的。

当然也有，比如上面提到的第三方数据分析商、垂直领域的DataEye，以及为企业提供大数据解决方案的明略数据等，也算是以大数据为根深立命而存在的。

但是总体来说，真的不多，而且绝大部分都是以2B的形式存在。我们知道，从格局上来看，2B的产品永远是难以做到2C产品那种真正宏伟规模，改变产业格局的。

所以，从这点来说，虽然你市场需求放在这里，但想真正以大数据为切入点、为立足的根本做点事，其实也没有想象中那么容易。

纠结~~

不过作为大数据领域的半个“老司机”，依然是希望大数据这个技术领域、这个行业，有一天能够形成独立的、推动人类进程的一些东西。

亦如互联网、亦如社交网络、亦如电子商务、亦如移动互联网等！

最近一直有很多新手同行们向我请教大数据方向上的一些事，自己也一直在思考互联网开放数据落地变现、以及大数据产业格局相关的问题。

所以，想的多了，对一些东西还是有一些看法的，藏在心中不吐不快。

也希望，上面闲话里的一些东西能够引起你的一些共鸣，当然反驳也欢迎，欢迎一切与人格无关，与技术有关、与业态有关的探讨。

下次希望有时间，能和大家一起探讨一些关于互联网开放数据落地变现相关的话题，这也是我目前一直想探索的东西，下次如果有所收获再写点东西吧。

(正文完)

『肆』国内有哪些大数据公司

“大数据”近几年来可谓蓬勃发展，它不仅是企业趋势，也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产，进行智能化决策，已成为企业脱颖而出的关键。因此，越来越多的企业开始重视大数据战略布局，并重新定义自己的核心竞争力。

在当前的互联网领域，大数据的应用已经十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。

『伍』用大数据分析找出数据间隐藏的关联性

用大数据分析找出数据间隐藏的关联性
智能穿戴设备监测健康、城市交通和天气的观测、抓捕罪犯、金融监管……伴随着大数据呈现出无孔不入的趋势，大数据分析开始成为人类进行科学决策的重要工具。从IT时代向DT时代的转变，大数据分析技术用迅速、精准的方式构建更加低成本、高效率的商业社会，并作为时下最为流行的技术之一，已经渗透到行业的方方面面，帮助企业用数据驱动业务的发展。
“DT时代的到来，对客户全方位的了解可谓是全所未有的。有了数据分析技术，企业可以将服务做的更细致全面，将被动转变为主动。”北京明略软件系统有限公司副总裁兼金融事业部总经理周卫天认为，大数据与行业的融合，让数据本身的价值得到了加倍的提升。
深度挖掘不同数据源间的隐藏关系
成立于2014年的北京明略软件系统有限公司是一家明略数据专注于关系挖掘的大数据行业应用解决方案提供商。作为一家成立仅两年的初创企业，目前明略数据已经完成了A轮融资，B轮融资将会在明年（2016年）第二季度完成。当前明略数据主要服务包括金融业、制造业、政府等行业部门在内的大型国企。“针对金融行业和公安部门这类客户，大数据分析技术首先体现的是精准，通过关系分析管理，从而直达目标群体。”周卫天说道。
金融业是最先落地大数据的行业之一，现在国内不少银行已经开始尝试通过大数据来驱动业务的运营。明略数据推出的大数据分析整合平台，帮助银行实现了风险管控、精准营销、征信管理、舆情监控等一系列的优化和提升。
·风险管控、反欺诈应用：利用数据分析，进行贷款质量评估，规避坏账风险。对中小企业融资风险监控，实现尽早发现企业违约风险。
·精准营销：在客户画像的基础上开展一系列包括交叉营销、个性化推荐、实时营销、客户生命周期管理等精准营销管理。
·征信/催收放贷增收：基于IP、GPS物理位置定位客户行为轨迹，加强银行信用卡征信审核。根据关联客户关系网，进行债务催收。
·舆情监控：检测客服中心、网上留言、社交媒体等信息，制定有效的客户维系及挽留措施。
公安/刑侦是目前明略数据服务的另一大主要行业，通过隐藏的数据关系通过算法、分析进行挖掘，快速的帮助公安部门找到有效信息，从而顺藤摸瓜，抓到罪犯，提升紧急事件的应对能力。举个简单的例子，通过最开始的订票信息，IP地址，到后来的车次、酒店信息、运营商的数据，将数据间进行关联分析，就可以确定订票人之间的关系。
给用户“技术+服务”两大保障
以上介绍的金融业和公安部门是明略数据主要服务的两大行业、部门，对此也不难从侧面发现明略数据针对数据安全性可以给出较高的保障。作为一个数据服务商，明略数据从网络安全、技术数据安全、使用安全等多方面入手，做到让客户安心。周卫天介绍，明略数据是国内外第一家在SQL on Hadoop三大查询引擎（Hive, Impala和Spark SQL）上实现行，列级别细颗粒度的权限控制大数据平台供应商。
有了技术上的优势，也就有了竞争的底气。在被问到如何在国内的大数据市场中抢占份额的时候，周卫天的说法很淡然，尽管国内的巨头已经进入进来，但市场很大，对像明略数据这样快速成长的企业还是存在很大的机会。另外，明略的优势是拥有专业的技术团队，可以把海量的数据源进行关联分析、深度挖掘，找出其中所隐藏的关系线索。
谈到今后的发展策略，除了技术的专注，服务好现有客户将是明略数据近几年关注的焦点。据了解，2016年明略数据将扩大各省市分公司规模，采取就近布局，包括市场、内部管理运营制定一系列的分级响应措施，增强客户的售后服务。此外在未来，明略数据也会邀请客户和技术人员进入到项目中来，以便更好地了解技术的使用，从而可以快速上手，以周卫天的话说，这也是客户增值服务的另一个角度。

『陆』如何建立一个完整可用的安全大数据平台

“
要建立一个大数据系统，我们需要从数据流的源头跟踪到最后有价值的输出，并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择，也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外，没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患。

1
计算框架篇
大数据的价值

只有在能指导人们做出有价值的决定时，数据才能体现其自身的价值。因此，大数据技术要服务于实际的用途，才是有意义的。一般来说，大数据可以从以下三个方面指导人们做出有价值的决定：

报表生成（比如根据用户历史点击行为的跟踪和综合分析、应用程序活跃程度和用户粘性计算等）；

诊断分析（例如分析为何用户粘性下降、根据日志分析系统为何性能下降、垃圾邮件以及病毒的特征检测等）；

决策（例如个性化新闻阅读或歌曲推荐、预测增加哪些功能能增加用户粘性、帮助广告主进行广告精准投放、设定垃圾邮件和病毒拦截策略等）。

图 1

进一步来看，大数据技术从以下三个方面解决了传统技术难以达成的目标（如图1）：

在历史数据上的低延迟（交互式）查询，目标是加快决策过程和时间，例如分析一个站点为何变缓慢并尝试修复它；

在实时数据上的低延迟查询，目的是帮助用户和应用程序在实时数据上做出决策，例如实时检测并阻拦病毒蠕虫（一个病毒蠕虫可以在1.3秒内攻击1百万台主机）；

更加精细高级的数据处理算法，这可以帮助用户做出“更好”的决策，例如图数据处理、异常点检测、趋势分析及其他机器学习算法。

蛋糕模式

从将数据转换成价值的角度来说，在Hadoop生态圈十年蓬勃成长的过程中，YARN和Spark这二者可以算得上是里程碑事件。Yarn的出现使得集群资源管理和数据处理流水线分离，大大革新并推动了大数据应用层面各种框架的发展（SQL on Hadoop框架, 流数据，图数据，机器学习）。

它使得用户不再受到MapRece开发模式的约束，而是可以创建种类更为丰富的分布式应用程序，并让各类应用程序运行在统一的架构上，消除了为其他框架维护独有资源的开销。就好比一个多层蛋糕，下面两层是HDFS和Yarn, 而MapRece就只是蛋糕上层的一根蜡烛而已，在蛋糕上还能插各式各样的蜡烛。

在这一架构体系中，总体数据处理分析作业分三块（图2），在HBase上做交互式查询（Apache Phoenix, Cloudera Impala等），在历史数据集上编写MapRece程序抑或利用Hive等做批处理业务，另外对于实时流数据分析Apache Storm则会是一种标准选择方案。

虽然Yarn的出现极大地丰富了Hadoop生态圈的应用场景，但仍存有两个显而易见的挑战：一是在一个平台上需要维护三个开发堆栈；二是在不同框架内很难共享数据，比如很难在一个框架内对流数据做交互式查询。这也意味着我们需要一个更为统一和支持更好抽象的计算框架的出现。

图 2

一统江湖

Spark的出现使得批处理任务，交互式查询，实时流数据处理被整合到一个统一的框架内（图3），同时Spark和现有的开源生态系统也能够很好地兼容（Hadoop, HDFS, Yarn, Hive, Flume）。通过启用内存分布数据集，优化迭代工作负载，用户能够更简单地操作数据，并在此基础上开发更为精细的算法，如机器学习和图算法等。

有三个最主要的原因促使Spark目前成为了时下最火的大数据开源社区（拥有超过来自200多个公司的800多个contributors）：

Spark可以扩展部署到超过8000节点并处理PB级别的数据，同时也提供了很多不错的工具供应用开发者进行管理和部署；

Spark提供了一个交互式shell供开发者可以用Scala或者Python即时性试验不同的功能；

Spark提供了很多内置函数使得开发者能够比较容易地写出低耦合的并且能够并发执行的代码，这样开发人员就更能集中精力地为用户提供更多的业务功能而不是花费时间在优化并行化代码之上。

当然Spark也和当年的MapRece一样不是万灵药，比如对实时性要求很高的流数据处理上Apache Storm还是被作为主流选择，因为Spark Streaming实际上是microbatch（将一个流数据按时间片切成batch,每个batch提交一个job）而不是事件触发实时系统，所以虽然支持者们认为microbatch在系统延时性上贡献并不多，但在生产环境中和Apache Storm相比还不是特别能满足对低延时要求很高的应用场景。

比如在实践过程中，如果统计每条消息的平均处理时间，很容易达到毫秒级别，但一旦统计类似service assurance（确保某条消息在毫秒基本能被处理完成）的指标，系统的瓶颈有时还是不能避免。

但同时我们不能不注意到，在许多用例当中，与流数据的交互以及和静态数据集的结合是很有必要的, 例如我们需要在静态数据集上进行分类器的模型计算，并在已有分类器模型的基础上，对实时进入系统的流数据进行交互计算来判定类别。

由于Spark的系统设计对各类工作（批处理、流处理以及交互式工作）进行了一个共有抽象，并且生态圈内延伸出了许多丰富的库（MLlib机器学习库、SQL语言API、GraphX）, 使得用户可以在每一批流数据上进行灵活的Spark相关操作，在开发上提供了许多便利。

Spark的成熟使得Hadoop生态圈在短短一年之间发生了翻天覆地的变化， Cloudera和Hortonworks纷纷加入了Spark阵营，而Hadoop项目群中除了Yarn之外已经没有项目是必须的了（虽然Mesos已在一些场合替代了Yarn）, 因为就连HDFS，Spark都可以不依赖。但很多时候我们仍然需要像Impala这样的依赖分布式文件系统的MPP解决方案并利用Hive管理文件到表的映射，因此Hadoop传统生态圈依然有很强的生命力。

另外在这里简要对比一下交互式分析任务中各类SQL on Hadoop框架，因为这也是我们在实际项目实施中经常遇到的问题。我们主要将注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中历史最短的，论文发表在15年的SIGMOD会议上，原文对比了数据仓库上不同类型的查询在Shark（Spark最早对SQL接口提供的支持）、Spark SQL和Impala上的性能比较。

也就是说，虽然Spark SQL在Shark的基础上利用Catalyst optimizer在代码生成上做了很多优化，但总体性能还是比不上Impala, 尤其是当做join操作的时候， Impala可以利用“predicate pushdown”更早对表进行选择操作从而提高性能。

不过Spark SQL的Catalyst optimizer一直在持续优化中，相信未来会有更多更好的进展。Cloudera的Benchmark评测中Impala一直比其他SQL on Hadoop框架性能更加优越，但同时Hortonworks评测则指出虽然单个数据仓库查询Impala可以在很短的时间内完成，但是一旦并发多个查询Hive on Tez的优势就展示出来。另外Hive on Tez在SQL表达能力也要比Impala更强（主要是因为Impala的嵌套存储模型导致的），因此根据不同的场景选取不同的解决方案是很有必要的。

图 3

各领风骚抑或代有才人出？

近一年比较吸引人眼球的Apache Flink（与Spark一样已有5年历史，前身已经是柏林理工大学一个研究性项目，被其拥趸推崇为继MapRece, Yarn，Spark之后第四代大数据分析处理框架）。与Spark相反，Flink是一个真正的实时流数据处理系统，它将批处理看作是流数据的特例，同Spark一样它也在尝试建立一个统一的平台运行批量，流数据，交互式作业以及机器学习，图算法等应用。

Flink有一些设计思路是明显区别于Spark的，一个典型的例子是内存管理，Flink从一开始就坚持自己精确的控制内存使用并且直接操作二进制数据，而Spark一直到1.5版本都还是试用java的内存管理来做数据缓存，这也导致了Spark很容易遭受OOM以及JVM GC带来的性能损失。

但是从另外一个角度来说, Spark中的RDD在运行时被存成java objects的设计模式也大大降低了用户编程设计门槛，同时随着Tungsten项目的引入，Spark现在也逐渐转向自身的内存管理，具体表现为Spark生态圈内从传统的围绕RDD（分布式java对象集合）为核心的开发逐渐转向以DataFrame(分布式行对象集合)为核心。

总的来说，这两个生态圈目前都在互相学习，Flink的设计基因更为超前一些，但Spark社区活跃度大很多，发展到目前毫无疑问是更为成熟的选择，比如对数据源的支持（HBase, Cassandra, Parquet, JSON, ORC）更为丰富以及更为统一简洁的计算表示。另一方面，Apache Flink作为一个由欧洲大陆发起的项目，目前已经拥有来自北美、欧洲以及亚洲的许多贡献者，这是否能够一改欧洲在开源世界中一贯的被动角色，我们将在未来拭目以待。

2
NoSQL数据库篇
NoSQL数据库在主流选择上依旧集中在MongoDB, HBase和Cassandra这三者之间。在所有的NoSQL选择中，用C 编写的MongoDB几乎应该是开发者最快也最易部署的选择。MongoDB是一个面向文档的数据库，每个文档／记录／数据（包括爬取的网页数据及其他大型对象如视频等）是以一种BSON（Binary JSON）的二进制数据格式存储, 这使得MongoDB并不需要事先定义任何模式, 也就是模式自由（可以把完全不同结构的记录放在同一个数据库里）。

MongoDB对于完全索引的支持在应用上是很方便的，同时也具备一般NoSQL分布式数据库中可扩展，支持复制和故障恢复等功能。 MongoDB一般应用于高度伸缩性的缓存及大尺寸的JSON数据存储业务中，但不能执行“JOIN”操作，而且数据占用空间也比较大，最被用户诟病的就是由于MongoDB提供的是数据库级锁粒度导致在一些情况下建索引操作会引发整个数据库阻塞。一般来说，MongoDB完全可以满足一些快速迭代的中小型项目的需求。

下面来主要谈谈Cassandra和HBase之间的比较选择。Cassandra和HBase有着截然不同的基因血统。HBase和其底层依赖的系统架构源自于著名的Google FileSystem（发表于2003年）和Google BigTable设计（发表于2006年），其克服了HDFS注重吞吐量却牺牲I/O的缺点，提供了一个存储中间层使得用户或者应用程序可以随机读写数据。

具体来说，HBase的更新和删除操作实际上是先发生在内存MemStore中，当MemStore满了以后会Flush到StoreFile, 之后当StoreFile文件数量增长到一定阈值后会触发Compact合并操作，因此HBase的更新操作其实是不断追加的操作，而最终所有更新和删除数据的持久化操作都是在之后Compact过程中进行的。

这使得应用程序在向内存MemStore写入数据后，所做的修改马上就能得到反映，用户读到的数据绝不会是陈旧的数据，保证了I/O高性能和数据完全一致性；另一方面来说， HBase基于Hadoop生态系统的基因就已经决定了他自身的高度可扩展性、容错性。

在数据模型上，Cassandra和HBase类似实现了一个key-value提供面向列式存储服务，其系统设计参考了 Amazon Dynamo (发表于2007年) 分布式哈希（DHT）的P2P结构（实际上大部分Cassandra的初始工作都是由两位从Amazon的Dynamo组跳槽到Facebook的工程师完成)，同样具有很高的可扩展性和容错性等特点。

除此之外，相对HBase的主从结构，Cassandra去中心化的P2P结构能够更简单地部署和维护，比如增加一台机器只需告知Cassandra系统新节点在哪，剩下的交给系统完成就行了。同时，Cassandra对多数据中心的支持也更好，如果需要在多个数据中心进行数据迁移Cassandra会是一个更优的选择。

Eric Brewer教授提出的经典CAP理论认为任何基于网络的数据共享系统，最多只能满足数据一致性、可用性、分区容忍性三要素中的两个要素。实际分布式系统的设计过程往往都是在一致性与可用性上进行取舍，相比于HBase数据完全一致性的系统设计，Cassandra选择了在优先考虑数据可用性的基础上让用户自己根据应用程序需求决定系统一致性级别。

比如：用户可以配置QUONUM参数来决定系统需要几个节点返回数据才能向客户端做出响应，ONE指只要有一个节点返回数据就可以对客户端做出响应，ALL指等于数据复制份数的所有节点都返回结果才能向客户端做出响应，对于数据一致性要求不是特别高的可以选择ONE，它是最快的一种方式。

从基因和发展历史上来说，HBase更适合用做数据仓库和大规模数据处理与分析（比如对网页数据建立索引），而Cassandra则更适合用作实时事务和交互式查询服务。Cassandra在国外市场占有比例和发展要远比国内红火，在不少权威测评网站上排名都已经超过了HBase。目前Apache Cassandra的商业化版本主要由软件公司DataStax进行开发和销售推广。另外还有一些NoSQL分布式数据库如Riak, CouchDB也都在各自支持的厂商推动下取得了不错的发展。

虽然我们也考虑到了HBase在实际应用中的不便之处比如对二级索引的支持程度不够（只支持通过单个行键访问，通过行键的范围查询，全表扫描），不过在明略的大数据基础平台上，目前整合的是依然是HBase。

理由也很简单，HBase出身就与Hadoop的生态系统紧密集成，其能够很容易与其他SQL on Hadoop框架（Cloudera Impala, Apache Phoenix, or Hive on Tez）进行整合，而不需要重新部署一套分布式数据库系统，而且可以很方便地将同样的数据内容在同一个生态系统中根据不同框架需要来变换存储格式（比如存储成Hive表或者Parquet格式）。

我们在很多项目中都有需要用到多种SQL on Hadoop框架，来应对不同应用场景的情况，也体会到了在同一生态系统下部署多种框架的简便性。但同时我们也遇到了一些问题，因为HBase项目本身与HDFS和Zookeeper系统分别是由不同开源团队进行维护的，所以在系统整合时我们需要先对HBase所依赖的其他模块进行设置再对HBase进行配置，在一定程度上降低了系统维护的友好性。

目前我们也已经在考虑将Cassandra应用到一些新的客户项目中，因为很多企业级的应用都需要将线上线下数据库进行分离，HBase更适合存储离线处理的结果和数据仓库，而更适合用作实时事务和并发交互性能更好的Cassandra作为线上服务数据库会是一种很好的选择。

3
大数据安全篇
随着越来越多各式各样的数据被存储在大数据系统中，任何对企业级数据的破坏都是灾难性的，从侵犯隐私到监管违规，甚至会造成公司品牌的破坏并最终影响到股东收益。给大数据系统提供全面且有效的安全解决方案的需求已经十分迫切：

大数据系统存储着许多重要且敏感的数据，这些数据是企业长久以来的财富

与大数据系统互动的外部系统是动态变化的，这会给系统引入新的安全隐患

在一个企业的内部，不同Business Units会用不同的方式与大数据系统进行交互，比如线上的系统会实时给集群推送数据、数据科学家团队则需要分析存储在数据仓库内的历史数据、运维团队则会需要对大数据系统拥有管理权限。

因此为了保护公司业务、客户、财务和名誉免于被侵害，大数据系统运维团队必须将系统安全高度提高到和其他遗留系统一样的级别。同时大数据系统并不意味着引入大的安全隐患，通过精细完整的设计，仍然能够把一些传统的系统安全解决方案对接到最新的大数据集群系统中。

一般来说，一个完整的企业级安全框架包括五个部分：

Administration: 大数据集群系统的集中式管理，设定全局一致的安全策略

Authentication: 对用户和系统的认证

Authorization：授权个人用户和组对数据的访问权限

Audit：维护数据访问的日志记录

Data Protection：数据脱敏和加密以达到保护数据的目的

系统管理员要能够提供覆盖以上五个部分的企业级安全基础设施，否则任何一环的缺失都可能给整个系统引入安全性风险。

在大数据系统安全集中式管理平台这块，由Hortonworks推出的开源项目Apache Ranger就可以十分全面地为用户提供Hadoop生态圈的集中安全策略的管理，并解决授权(Authorization)和审计(Audit)。例如，运维管理员可以轻松地为个人用户和组对文件、数据等的访问策略，然后审计对数据源的访问。

与Ranger提供相似功能的还有Cloudera推出的Apache Sentry项目，相比较而言Ranger的功能会更全面一些。

而在认证（Authentication）方面, 一种普遍采用的解决方案是将基于Kerberos的认证方案对接到企业内部的LDAP环境中， Kerberos也是唯一为Hadoop全面实施的验证技术。

另外值得一提的是Apache Knox Gateway项目，与Ranger提高集群内部组件以及用户互相访问的安全不同，Knox提供的是Hadoop集群与外界的唯一交互接口，也就是说所有与集群交互的REST API都通过Knox处理。这样，Knox就给大数据系统提供了一个很好的基于边缘的安全（perimeter-based security）。

基于以上提到的五个安全指标和Hadoop生态圈安全相关的开源项目，已经足已证明基于Hadoop的大数据平台我们是能够构建一个集中、一致、全面且有效的安全解决方案。
我市再ITjob管网上面找的

『柒』如何创建一个大数据平台

所谓的大数据平台不是独立存在的，比如网络是依赖搜索引擎获得大数据并开展业务的，阿里是通过电子商务交易获得大数据并开展业务的，腾讯是通过社交获得大数据并开始业务的，所以说大数据平台不是独立存在的，重点是如何搜集和沉淀数据，如何分析数据并挖掘数据的价值。

我可能还不够资格回答这个问题，没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧，也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享，印象很深的是，他们分享说，他们的hadoop集群第一次故障是因为，机器放在靠窗的地方，太阳晒了当机了（笑）。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台，这是一个不断演进的过程。
对小公司来说，大概自己找一两台机器架个集群算算，也算是大数据平台了。在初创阶段，数据量会很小，不需要多大的规模。这时候组件选择也很随意，Hadoop一套，任务调度用脚本或者轻量的框架比如luigi之类的，数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理，用脚本或者轻量的监控，大约是没有ganglia、nagios，puppet什么的。这个阶段也许算是技术积累，用传统手段还是真大数据平台都是两可的事情，但是为了今后的扩展性，这时候上Hadoop也许是不错的选择。
当进入高速发展期，也许扩容会跟不上计划，不少公司可能会迁移平台到云上，比如AWS阿里云什么的。小规模高速发展的平台，这种方式应该是经济实惠的，省了运维和管理的成本，扩容比较省心。要解决的是选择平台本身提供的服务，计算成本，打通数据出入的通道。整个数据平台本身如果走这条路，可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段，你发现云服务的费用太高，虽然省了你很多事，但是花钱嗖嗖的。几个老板一合计，再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维，帮你监管机器，之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了，你面对的是成百上千台主机，有些关键服务必须保证稳定，有些是数据节点，磁盘三天两头损耗，网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局，设计运维规范，架设监控，值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型，如果有技术实力，可以直接用社区的一整套，自己管起来，监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了，配置管理，部署管理都需要专门的平台和组件；定期Review用户的作业和使用情况，决定是否扩容，清理数据等等。否则等机器和业务进一步增加，团队可能会死的很惨，疲于奔命，每天事故不断，进入恶性循环。
当然有金钱实力的大户可以找Cloudera，Hortonworks，国内可以找华为星环，会省不少事，适合非互联网土豪。当然互联网公司也有用这些东西的，比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入，之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS，现在可能不行了，这些大概没有高性能，没有异常保障，你需要更强壮的解决方案，比如Flume之类的。
你的业务不断壮大，老板需要看的报表越来越多，需要训练的数据也需要清洗，你就需要任务调度，比如oozie或者azkaban之类的，这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了，因为传统数据库已经完全hold不住了，但他们不会写代码，所以你上马了Hive。然后很多用户用了Hive觉得太慢，你就又上马交互分析系统，比如Presto，Impala或者SparkSQL。
你的数据科学家需要写ML代码，他们跟你说你需要Mahout或者Spark MLLib，于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了，大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂，不管是你还是写数据的人大概都不知道数据从哪儿来，接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能，发现你们的数据都是上百Column，各种复杂的Query，裸存的Text格式即便压缩了也还是慢的要死，于是你主推用户都使用列存，Parquet，ORC之类的。
又或者你发现你们的ETL很长，中间生成好多临时数据，于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户，把这些零散的组件都整合到一起，提供统一的用户体验，比如一键就能把数据从数据库chua一下拉到HDFS导入Hive，也能一键就chua一下再搞回去；点几下就能设定一个定时任务，每天跑了给老板自动推送报表；或者点一下就能起一个Storm的topology；或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然，磕磕碰碰免不了。每天你都有新的问题和挑战，否则你就要失业了不是？
你发现社区不断在解决你遇到过的问题，于是你们架构师每天分出很多时间去看社区的进展，有了什么新工具，有什么公司发布了什么项目解决了什么问题，兴许你就能用上。
上了这些乱七八糟的东西，你以为就安生了？Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人，老板如果知道这是天然坑多的平台，那他也许会很高兴，因为跟进社区，帮忙修bug，一起互动其实是很提升公司影响力的实情。当然如果老板不理解，你就自求多福吧，招几个老司机，出了问题能马上带路才是正道。当然团队的技术积累不能不跟上，因为数据平台还是乱世，三天不跟进你就不知道世界是什么样了。任何一个新技术，都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术，那需要小心再小心，技术主管也要有足够的积累，能够驾驭，知道收益和风险。

『捌』大数据洞察有哪些特色，大数据营销案例，大数据企业

特色案例分析：
1、浪潮GS助力广安集团一猪一ID强化食品安全
作为辐射全国的农牧企业集团，多年来广安集团一直企业信息化进程与企业发展需求不匹配的问题。2013年，广安集团引入浪潮GS，采用单件管理系统，通过一猪一ID对其成长周期进行全过程监控，促使食品安全可追溯，实现饲养流程精细化、集约化管理，使每年饲料节约了2成左右，为广安的智慧企业养成之路奠定了基础。
2、华为大数据一体机服务于北大重点实验室
经过大量的前期调查，比较和分析准备工作，北大重点实验室选择了华为基于高性能服务器RH5885V2的HANA数据处理平台。HANA提供的对大量实时业务数据进行快速查询和分析以及实时数据计算等功能，在很大程度上得益于华为RH5885 V2服务器的高可靠、高性能和高可用性的支撑。
3、神州数码助张家港市更”智慧”
在张家港实践的城市案例中，市民登录由”神州数码”研发的市民公共信息服务平台后，只要凭借自己的身份证和密码，即可通过该系统平台进行240余项”在线预审”服务、130余项”网上办事”服务等，还可通过手机及时查看办事状态。相比于以前来说，市民办事的时间最少可以节省一半以上。
4、中科曙光助同济大学科研领域再创新高
为了满足爆炸式增长的用户和数据量，同济大学携手中科曙光，在全面整合云计算平台和现有资产的基础上，采用 DS800-F20存储系统、Gridview集群管理系统，以及Hadoop分布式计算平台构建出了业内领先的大数据柔性处理平台，使得同济大学在信息学科及其交叉学科研究领域迈上一个新台阶。
5、中国电信基于物联网的智能公交解决方案
中国电信提出了基于物联网的智能公交应用整体解决方案。该方案紧密结合公交行业特点，涵盖了全球眼视频监控系统、GPS定位调度系统、无线数据采集系统等技术，是基于物联网技术的公交行业车辆监控调度管理综合性解决方案。中国电信智能交通系统利用物联网技术，提高了公交系统中的人(乘客、司乘人员、管理人员)、公交设施(道路、场站等)和公交车辆等之间的有机联系，从而最佳地利用了交通系统的时空资源，通过信息资源的合理开发、利用和整合，提高了公交行业运行效率，改善了服务质量，为应对重大突发事件提供了必要的手段，在公交公司的科学运营管理、安全监控等方面发挥了重要的作用，物联网的应用已成为公交业务发展的必然趋势。
6、明略数据为税务部门构建的可视化涉税分析平台
税务系统的数据在很长时间内大量来自于纳税人的申报行为数据和报表数据，面向税务工作人员的是割裂的不同业务系统，信息本身被业务消解为固定的逻辑和处理形式。明略数据为税务部门构建的可视化涉税分析平台定位为面向税务部门的数据服务产品。产品充分利用明略底层大数据平台相关技术，数据挖掘建模技术及明略税务行业研究专家对税源管理专业化，风险控制精细化，决策分析智能化的理解，搭建以分析预测为核心的数据应用平台，以帮助税务部门征管工作更有效、更全面、更精细化的展开。
7、悠易互通汽车行业大数据经验助奥迪品荐二手车
2015年，奥迪品荐二手车项目通过悠易互通程序化购买平台进行为期5个月的推广活动，传播受众主要以男性以及已有奥迪车主为主，悠易互通规划的投放策略是，首先，通过人群标签及关键词，对精准受众人群进行全网竞价;其次，对以上竞价成功人群进行优化召回，分析以提高下一轮竞价成功率;根据悠易互通汽车行业大数据经验，消费者的行为路径为”兴趣-认知考虑-转化”，程序化购买可以通过人群召回的方式将流失人群引导到下一环节，从而促进转化可能。最终投放结果显示，悠易互通通过以上策略高效达成客户KPI，曝光量超过预估13%，点击量超过KPI 26%，注册量高达163%。
8、东风风神大数据”动”悉全系目标受众，打破传统促销方式
派择科技应用底层行为数据管理平台Action DMP支招东风风神全系营销推广活动， Action DMP实现全网用户行为元数据、应用元数据、场景元数据的实时无损解析，精准捕获各车型目标受众;通过分析用户行为场景，了解他们的触媒习惯，展开品牌与用户定制化沟通，其中也包括个性化创意载体与沟通渠道组合。项目最终CPL成本较目标降低40%。
9、智子云大数据挖掘助苏宁易购访客”回心转意”之路
苏宁易购期望通过智子云的VRM模型对到站/进APP的流失访客进行精细划分，并借助DSP精准定向能力跨屏锁定目标人群，找回流失访客。首先，建立数据仓库;其次智子云个性化推荐引擎Rec-Engine;智子云智能动态出价引擎Delta-Engine;智子云全网跨屏LBS定向引擎Loc-Engine不但支持多屏、跨屏投放，还能从访客转化率、媒体、地理位置、时段、设备类型、设备号等多个维度建立访客转化率预测模型和商品推荐模型;最后，重定向投放，针对每一个到访访客计算广告点击率和到站转化率，然后通过自动聚类算法将访客人群分档打分，对不同分值的人群，在综合媒体环境、竞价成功率等因素后，进行实时差异化出价。最终，本次活动找回苏宁易购的流失访客9,572,163次，并促成36,748个直接有效订单;最终投资回报率>3。
10、 “优衣·幸运·穿回家”优衣库2016春节场景营销OxO
2016年，优衣库中国推出了”优衣·幸运·穿回家”的春节主题活动，融入”LifeWear服适人生”品牌理念。结合大数据分析规模化的消费者共性，合适的移动媒介精准传播，借助自媒体传播，连接到店体验。制定优质的移动媒介策略，结合自媒体、网络广告、社交媒体平台、零售店和微信支付，精准覆盖受众，，一系列线上活动让优衣库品牌和冬春装产品形象直达人心，有效地将线下用户带到线上参与互动并积极分享，实现OxO导流，收获了比较理想的品牌营销和销售增长效果。

导航:首页 > 网络数据 > 明略大数据平台

明略大数据平台

与明略大数据平台相关的资料

友情链接