导航:首页 > 网络数据 > 阿里大数据之路

阿里大数据之路

发布时间:2023-01-30 02:15:56

Ⅰ 阿里,腾讯和百度的互联网大数据应用有何不同

网络、阿里巴巴和腾讯三大互联网企业都拥有大数据,三大互联网巨头的数据都用内来优化自己业务的运营效容果,从这个层面看,其数据价值应用场景比较类似。但由于其业务和商业模式的不同决定了三者数据资产的不同,也决定了三者未来大数据策略的不同,尤其是基于大数据的开放和合作角度看,网络和阿里巴巴相对更加开放。对于重视大数据开放和合作的互联网企业,他们最为期待的是借着大数据开放的策略,与更多的传统行业交换更多的数据,从而更好的丰富其在线下数据,形成线上和线下数据的协同,从中拓展新的商业模式,如智能硬件和大数据健康。

Ⅱ 阿里达摩盘:如何运用“人货场”方法构建标签体系

作者介绍

画像数据产品@草帽小子

《大数据实践之路:中台+分析+应用》核心作者

专注用户画像,著有用户画像、标签体系等系列文章

人人都是产品经理专栏作家

“数据人创作者联盟”成员

大家好,我是草帽小子~

用户标签是通过对用户基础信息、用户行为、业务信息等数据,进行数据建模所产生的用户特征。标签是用户画像、用户分层的基础,在画像产品的工作中,标签体系的建设处于核心位置。

之前草帽小子有分析对比过不同厂的标签体系建设方法,对比后会发现不同业务下标签体系的分类方法也不一样,具体见《 干货 | 阿里/网易/汽车之家画像标签体系 》,下面我们来深入看看阿里达摩盘的标签体系。

01  标签体系

通常标签较多时,用户都会无从下手,就像是我们去到超市,要是货架上的商品杂乱无章,我们也难以找到自己想要的商品。因而超市的做法会将商品按品类或是用途来进行分类,方便用户寻找。

达摩盘标签体系的划分也使用了分类的方法,商家面对海量标签会无从下手,因而达摩盘将电商中“人货场”的方法运用于标签分类中,划分出用户特征、品类特征、渠道特征、私域特征,从而更好地满足商家的使用需求。

个体特征,包含基础特征、亲缘关系、地理位置、社会特征、消费特征、长期兴趣、策略人群。

例如,消费力分级标签:基于用户在淘宝的浏览、搜索、购买等行为,综合计算出用户的消费能力水平,并划分为5个等级,等级越高则表明消费能力越强。

品类特征,包含类目行为、类目客单价、类目消费力分级、类目消费决策导向、行业特征。这个类别构建了“人-商品”间的关系,跟《 阿里达摩盘:画像营销洞察有哪5种玩法? 》中的单品圈人类似。

例如,美妆行业特征标签:根据用户近60天在淘宝天猫,进行宝贝搜索和浏览收藏等互动行为时,所对应的宝贝属性,筛选出用户top30感兴趣的属性词,并经过算法加工后归纳到类目的属性特征人群。

渠道特征,包含搜索渠道、推荐渠道、活动渠道、内容渠道、站外渠道、广告渠道、天猫渠道。

例如,活动渠道行为标签:根据近30天用户在淘宝天猫活动渠道上,分类目的浏览、收藏等具体互动行为,进行偏好度计算,并按30%、40%、30%的比例进行高中低的偏好度打分。

02  标签市场

系统呈现层面,增加了标签热门指数、展现指数、点击指数、出价指数,可进行标签应用质量的评估。

增加了一些最新上线、实时标签、我的收藏、即将下线的一些分类,方便用户使用。

草帽小子:目前一些公开资料,只能看到前台的一些功能。而对于标签建设者来说,标签后台管理模块也至关重要,能够支持对标签进行新增、下架、修改、查看等。感兴趣的可以研究一些第三方CDP平台。

03  标签推荐

标签推荐模块,平台提供今日精选推荐、实时人群播报、标签排行榜、星耀精选、优质人群推荐服务,帮助商家快速选择合适的人群。

标签排行榜通过拉新场景榜、店铺用户运营榜、大促营销榜,从不同维度对标签进行排名,可以帮助商家在不知如何选时,参考热门标签。

系统推荐店铺潜客、店铺新客、店铺老客的显著特征,从而方便商家圈选人群。

标签上新也会进行推荐,这样标签上线容易被发现,不然会无人问津。

草帽小子:在上一个洞察模块《 阿里达摩盘:画像营销洞察有哪5种玩法? 》,我们也会发现有标签推荐的功能。很多团队在业绩汇报时,会说我们这个季度建设了多少标签,可能已经建设了上千个。但是在做标签应用时,会发现营销人员用起来难。

面对上千个标签,营销人员脑子也会一头雾水,到底什么场景下,使用什么标签才能更好?

最后很不幸的结果是,营销人员通常只会用几个平时用的比较多的标签,圈选出来的人群推送效果达不到最佳。标签产研团队最后也会被老板质疑,投入这么多精力开发上千个标签,一半以上的标签都没人用,你们怎么搞的?

因而,系统建设者需要结合一些运营模型,做到不同运营场景下的标签组合推荐。

04  小结

不同业务标签体系划分的方式不一样,如电商业务使用的“人货场”标签体系、长租业务中是用“人房客”标签体系、汽车业务使用“人车“标签体系…尽管不同行业建设的标签体系千变万化,但不变的是标签体系的划分,要符合用户的使用习惯,方便用户寻找特定标签。

Ⅲ 7.阿里大数据——大数据建模

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
适合业务和基础数据存储环境的模型,大数据能获得以下好处:

大数据系统需要数据模型方法来帮助更好的组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

不管是Hadoop、Spark还是阿里巴巴集团的MaxCompute系统,仍然在大规模使用SQL进行数据的加工和处理,仍然在用Table存储数据,仍然在使用关系理论描述数据之间的关系,只是在大数据领域,基于其数据存取的特点在关系数据模型的范式上有了不同的选择而已。

从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符合3NF。数据仓库中的3NF与OLTP中不同过,有以下特点:

ER模型建设数据仓库的出发点是整合数据,为数据分析决策服务。建模步骤分为三个阶段:

维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型代表事星形模型,以及在一些特殊场景下使用的雪花模型。其设计步骤如下:

它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。它强调建立一个可审计的基础数据层,也就是强调数据的历史性、可追溯性和原子性,而不要求对数据进行过度的一致性处理和整合。该模型由一下几部分组成:

Anchor对Data Vault模型做了进一步规范化处理,设计的初衷是一个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到6NF,基本变成了k-v结构化模型。组成如下:

经历了多个阶段:

Ⅳ 读书笔记-07-数商-数据改变命运

之前看过一本书就做“奇特的一生”,本书的主人公叫柳比契夫,不仅是位著名科学家,还是“时间管理界”的大神。在他传奇的一生中,一共有70多部著作。除了其专业领域外,还有历史、宗教、数学等领域。柳比契夫的时间管理方式,首先做的就是时间记录,他时间记录到什么程度?柳比契夫从1961年开始记录直到其去世。在这长达56年的时间里,他把自己所有做过的事情,用了多长时间,都详细地记录了下来。
在这之上柳比契夫还会做周总结、月总结、年总结,统计其在每个事物上所花费的时间。有了这些数据,就能更科学做计划了。因为其有足够多的数据,对于时间就有超强的把控感,这样制定的计划也就更为合理,也更高效。我们可以想象当时在没有电脑的时代,只能通过纸质地记录方式,无论记录还是查询都非常麻烦和低效。而我们现在有了电脑,尤其是有了手机,随手记录显得异常方便,但是作为数据时代先行者的我们,真的有效地使用了这种工具,帮我们提高工作效率?答案是不一定,工具还是那个工具,工具要想发挥它的功效,首先你要深刻理解数据重要性,能想象到数据带来的好处,以及知道如何记录数据,最后再有一个易用的工具,这样才能真正把数据用起来。综合来看,就是徐子沛老师说的数商,只有数商足够高,移动互联网的工具才能发挥效能。
这就引出了我今天介绍的这本新书《数商》。之前我看很多大数据的书,比如《大数据时代》、阿里的《大数据之路》、车品觉的《数据的本质》和《决战大数据》、《数据中台》,更多的就是专业大数据技术书籍。一直没有看徐子沛老师的书,觉得没有什么特别的新意,听了罗振宇将这本书的时候,才决定看一下,看完后还是感觉收获颇丰。数商讲的是一个人如何驾驭数据的能力,数商会像智商、情商一样,决定着我们的未来。
这本书一开始就有一套数商测试题,一共34道。它测的不是你的数学能力,而是把我数据的能力。我测了一下,是82分,这套有几个问题决定了我很难拿到90分以上,比如,把你的情绪打分记录下来,把你的朋友关系打分记录下来,预测一件事打分记录下来等等,像这样的题,其实就像前面提到的柳比契夫每天做的时间管理一样,把自己的所有经历都数据化。这可能就是一般人和大神级人物的区别,看似只有一点点的区别,其实做到这点难度极大。本书后面是通过一个个故事把数商的价值体现出来,比如赌场、见未来岳母、疫情、奶茶与粪堆等等,里面的故事非常精彩,为我们后续的构建自己的大数据体系提供了很好的素材。我还特意来了徐子沛的三本实体书,主要是想写学习徐老师讲故事的能力。
同时他里面的每一个故事,都在告诉我们一个道理,一个普通人完全可以通过不断提升自己对数据的驾驭能力,来把握自己的命运,甚至是挑战权威。如果我们仔细想想真的是这样,现在“智商”和“情商”,大家都已经非常重视,都在通过各种方式提高,你如果想在这两个方面特出越来越难,但是数商却还是一片开阔地,一方面大部分人没意识到,一方面还没有特别的有效方法,只要我们稍微注意一下,就能很快脱颖而出。
在这个大数据时代,在这个阶级逐步固化的时代,《数商》给我们指明一条弯道超车之路,这条依然坎坷,但是他有机会超车,也许是这时代赋予我们的机会。

Ⅳ 大数据之路

人类从“IT时代”进入“DT时代”。本书介绍了阿里巴巴的大数据系统架构,为了满足不断变化的业务需求,同时实现系统的 高扩展性 灵活性 以及 数据展现的高性能
数据体系主要包括: 数据采集 数据计算 数据服务 数据应用 四大层次。

事实表包括引用的 维度 和描述具体业务的 度量

事实表中一条记录描述的业务的细节程度称为 粒度 。粒度可以使用两种方式来表示:(1)维度属性组合(2)所表示的具体业务含义。

事实包括可加性、半可加性和不可加性三种类型:
半可加性:只可以针对特定维度做聚合,例如库存(不能按照日期,可按照仓库聚合)。
可加性:可以按照任意维度聚合。
不可加性:完全不具备可加性。(例如:比率,事实表可以拆分存储分子分母)

维度属性也可以存到事实表中,称为 退化维度

事实表有三种类型:事务事实表、周期快照事实表、累计快照事实表。
事务事实表描述的是业务过程上的原子事务,也称为 原子事实表
周期快照事实表是按照周期性规律的时间间隔记录事实。
累计快照事实表:累计快照事实表用来表示过程开始和结束过程之间的关键步骤事件,覆盖整个生命周期,通常用多个日期字段记录关键时间点,记录会随着时间变化而修改。

事实表设计原则:
原则1: 尽可能包含所有与业务过程相关的事实。
即时存在冗余,也尽可能存储。

原则2:只选择与业务过程相关的事实。

原则3:分解不可加事实为可加的组件。
例如:不存成单率,转而存储成单数和提单数。

原则4:选择维度和事实前,必须先声明粒度。
建议粒度设置的越细越好,这样可以最大限度的提高灵活性。可以通过业务描述或者维度属性组合的方式来定义粒度。

原则5:在同一个事实表中,不应该有不同粒度的事实。
例如:一个事实表中不应该包含某些精确到订单粒度的度量,同时又包含只精确到城市的度量。

原则6:事实的单位一致。

原则7:尽量处理掉事实表中的null值。
SQL中大于,小于的条件不适用与null值,所以尽量用数值替代null,例如0.

原则8:使用退化维度增加事实表的易用性。
在Kimball的维度设计模型中,分拆出单独的维度表,为了节省存储。但是为了减少使用时的关联次数,可以多使用退化维度提供事实表易用性。

事实表设计方法:
1.选择业务过程及确定事实表类型。2. 声明粒度。3.确定维度。4.确定事实。5.冗余维度(设计退化维度)。

事务事实表,即针对业务过程构建的一类事实表,用来跟踪定义业务过程的个体行为,提供丰富的分析能力,作为数据仓库原子的明细数据。

单事务事实表,即针对每一个业务过程设计一个事实表,这样可以方便地对每一个业务过程进行分析研究。

表示同一个事实表包含不同的业务过程。多事务事实表有两种实现方法:(1)使用两个不同的事实字段来保存各自业务过程。(2)使用同一个字段保存,但是增加一个业务过程标签。
下面举例说明,淘宝交易事务事实表同时包含下单、支付和成功完结三个过程,三个过程粒度一致,可以放在一个事实表。下面确定维度和事实,该表中的下单度量、支付度量和成功完结度量信息分别存在不同字段,如果不是当前业务处理,则用0来处理。
当不同业务过程的度量比较相似、差异不大时使用第二种事实表(使用一个字段保存),当不同业务过程的度量差异大时,使用第一种(多字段保存)。

对于单事务事实表和多事务事实表的选择上,可以从以下一些方面来区分:
业务过程、粒度和维度(不同业务过程粒度相同,并且维度相似时,可以选用单事务事实表)、事实、下游业务使用、计算存储成本。电商环境下,有父子订单的概念,店铺多商品各生成一个订单,在一个店铺合成一个父订单。

1.事实完整性:事实表包含与其描述的过程有关的所有事实。
2.事实一致性:明确存储每一个事实以确保度量一致性。例如,有下单商品数和商品价格2个事实,同时保存下单金额(价格*商品数)。这样下游使用时,直接取下单金额,而不是再次计算,以保证指标的一致性。
3.事实可加性:为确保下游使用时,指标的可聚合性,尽量保存原始数,而不是计算后的比率指标。

对于事务度量,事务性事实表可以很好地表征。但是对于一些 状态度量 ,例如买卖家累计交易金额、商品库存、买卖家星级、温度(事务事实表无法聚合得到)等,事务事实表的效率较低或者无法处理。为了解决状态度量问题,引入周期性快照事实表(也称为 快照事实表 )。

1.用快照采样状态:快照事实表以预定的间隔采样状态度量。
2.快照粒度:快照事实表通常总是被多维声明,即快照需要采样的周期以及什么将被采样。
3.密度和稠密性:稠密性是快照事实表的重要特征。事务事实表一般都是稀疏的,只要发生业务才会有相应记录。
4.半可加性:快照事实表的状态度量都是半可加的,例如商品库存,只针对商品维度可加,对日期维度不可加。

设计快照事实表,首先确定快照粒度,然后确定采样的状态度量。下面介绍几个快照事实表实例。
单维度每天快照事实表、混合维度每天快照事实表,这两种快照表都可以从事务事实表汇总得到。另外的一种产出模式是直接使用操作型系统作为数据源来加工,例如淘宝卖家的星级评分是在操作型系统中计算得出的,仓库直接拿来这部分数据加入事实表。全量快照事实表,是特殊类型的周期快照表,例如设计无事实的事实表来记录评论的状态度量。

对于研究事件之间的时间间隔需求时,累计快照事实表能较好符合需求。
特点:
1.数据不断更新:例如,在下单、支付和确认收货三个业务过程中,事务事实表会生成3条记录,而累计快照表会不断更新一条记录(不生成新记录)。
2.多业务过程日期:
累计快照表适用于具有较明确起止时间的短生命周期的实体,对于每个实体都经历从诞生到消亡等步骤。
3.存储历史全量数据。

1.事件类的,例如浏览日志。
2.条件范围资格类的,例如客户和销售人员的分配情况。

主要是提前聚合,为了增加数据访问的效率(不用再聚合了),减少数据不一致的情况。这类聚集汇总数据,被称为“公共汇总层”。
聚集的基本步骤:1.确定聚集维度。2.确定一致性上钻。3.确定聚集事实。

元数据主要记录数据仓库中模型的定义、各层级间映射关系、监控数据仓库的数据状态及ETL任务的运行状态。元数据分为 技术元数据 业务元数据
阿里巴巴技术元数据包括:
数据表、列等信息;ETL作业的信息;数据同步、任务调度、计算任务等信息。数据质量和运维相关元数据。
阿里巴巴业务元数据包括:
维度属性、业务过程、指标等。数据应用元数据,例如数据报表、数据产品等。

元数据价值:
元数据在数据管理方面为集团数据在计算、存储、成本、质量、安全、模型等治理领域上提供数据支持。

阿里MaxCompute提供了archive压缩方法,采用了具有更高压缩比压缩算法,将数据以RAID file的形式存储。这样可以节省空间,但是恢复起来也更复杂,所以适用于冷备份的数据。

MaxCompute基于列存储,通过修改表的数据重分布,避免列热点,将会节省一定存储空间。

存储治理项以元数据为基础,列出例如“62天内未访问的分区”、“数据无更新的任务列表”等等管理项推动ETL优化。形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化的闭环。

生命周期管理的目的是用最少的存储成本来满足最大业务需求,实现数据价值最大化。
1.周期性删除策略:
2.彻底删除策略:主要针对无用表,ETL中间过程表。
3.永久保存策略:
4.极限存储策略:
5.冷数据管理策略:针对重要且访问频率低的数据。
6.增量表merge全量表策略:

将一个数据表的成本分为存储成本和计算成本,除此之外,上游表对该表的扫描成本也应该计入。相应的计费分别核算为:计算付费、存储付费和扫描付费。数据资产的成本管理分为数据成本计量和数据使用计费。

Ⅵ 阿里大数据学院的详细情况,有了解的吗

阿里大数据学院由阿里云、慧科集团和高校三方联手共建,是近两年产教融合、校企合专作的新尝试。属学院采用“产学合作协同育人”人才培养模式,校企共同办学,共建大数据、云计算、云安全等专业(不只是你说的大数据专业哦)、 实训基地、 双师团队、 大数据教学资源库,以项目实战和课(程)证(书)融合的教学模式培养大数据技术应用型创新型人才,为当地大数据、云计算等前沿信息产业高速发展提供人才支撑。
除了你提到的成都信息工程大学外,还有贵州理工学院、北京城市学院、福州职业技术学院与阿里云、慧科合作成立了阿里大数据学院,培养符合市场需求紧缺的技术人才。

Ⅶ BAT三巨头开始挖掘大数据

BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。
概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。
BAT都是大矿主,但矿山性质不同
数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
网络拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
下面,就将三家公司的情况一一扫描与分析。
一、网络:含着数据出生且拥有挖掘技术,研究和实用结合
搜索巨头网络围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
除了网页外,网络还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管网络拥有核心技术和数据矿山,却还没有发挥出最大潜力。网络指数、网络统计等产品算是对数据挖掘的一些初级应用,与Google相比,网络在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。
2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。
接下来,网络会向企业提供更多的数据和数据服务。前期网络与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。
网络还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管网络已经出发,其在大数据上可做的事情还有很多。
在数据收集方面,网络需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。
在数据处理技术上,网络成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,网络等探索者还有很多待解问题,如:无监督式学习、立体图像识别。
在数据变现方面,网络需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。
网络的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面网络是聚集国内最多大数据相关领域顶尖人才的公司。听说网络前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。
在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。
总体来看,网络拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
二、腾讯:数据为产品所用,自产自销
微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。
腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占14.1%;网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。
在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢?笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。
在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。
腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向网络、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢?不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上网络,就难了。除非将网络的数据和众大牛一起倒腾过来。
总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。
总结一下
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。

Ⅷ 阿里大数据营销存在哪些问题

问题有如下几点:
1、数据存在失真情况。数据的失真主要体现在两个方面:一方面,消费者在注册时可能会输入虚假的个人信息或者是一人使用多个账户、使用他人账户等,其在网络操作过程中产生的数据信息本身就不真实,另一方面,由于网络技术的发展和消费者的个性化需求促使阿里巴巴每隔一段时间就要进行网站维护与更新,在这个过程中,会有不少用户因为不熟悉新的界面而进行错误的操作,这些错误的操作信息也被阿里巴巴记录,造成数据库中真假信息混杂,严重影响了大数据的质量。
2、消费者的个人权益难以保障。直至目前,阿里巴巴仍没有提出有效预防用户信息泄露的方法或是用户信息泄露之后的维护方法。
3、大数据营销效果易出现两极化。用户在使用淘宝的过程中会将自己的手机号码、邮箱等联系方式提供给阿里巴巴,为了扩大经营,阿里巴巴会进一步分析数据库中的客户需求,针对不同的客户,通过短信、邮件等形式向客户推销产品,这在某些方面增加了客户,然而大多情况下这些信息会被消费者无视,更有甚者,会引起消费者的反感,因此,大数据营销的效果如何,仍存在极大的不确定性,效果难以预料。

Ⅸ 阿里旅行的国际化之路你怎么看

每个人都记得,当阿里巴巴集团在美国完成上市之后,马云口中的三大战略——全球化、农村电商和大数据。作为阿里巴巴的旗下的旅游业务,特殊的行业属性赋予了他对全球市场更为迫切的渴望和按捺不住的国际化野心。

中国消费市场日新月异,消费者行为模式也正迅速改变,获得心仪的产品与服务是他们最关心的;而随着年轻一代消费群的成长,旅行的意义已经悄然改变,成为日常的一种生活方式。

我愿意把中国的旅游消费者诉求分为四大类,那就是出行、入住、度假、购物。当下的中国正在由传统意义上的“单纯旅游”进入度假或者进入旅行的阶段,在线旅游公司提供的应该是一个有内生有外延的服务平台。人们谈论更多的消费升级新机遇,说白了就是在消费升级的背后,迎来了服务型电商平台的肇始。

那么阿里旅行可以定位成一家旅行服务型电商开放平台,阿里旅行与携程、途牛等OTA公司不同,是依托阿里巴巴大平台建立的在线旅游平台。阿里旅行的每一个创新动作,均是阿里生态体系势能的输出,在这背后是阿里系的“最强势能”组合——阿里3.5亿活跃用户、芝麻信用、支付宝、花呗、阿里云以及高德地图等。

相比其它OTA,通过平台的模式帮助消费者和商家实时连接起来,更容易贴近游客需求,便于供应商不断完善和优化在中国市场的营销策略。同时,可利用阿里大数据打通不同场景,为平台上的供应商提供最为精准的消费者画像。这个平台,如果日后能够做到商品和服务的高效契合,那么看起来就会是一个颇具生态效应的全球化平台。提供了高效连接消费者和企业的创新平台,无论是国内的还是国际的航司、酒店、旅游目的地还是出行服务甚至餐馆,你都可以在这个平台上找到自己的用户。

Ⅹ 阿里品牌数据银行:全网最全数据银行介绍!(附海量截图)

作者介绍

画像数据产品@草帽小子

《大数据实践之路:中台+分析+应用》核心作者

著有用户画像、标签体系、广告投放等系列文章

人人都是产品经理专栏作家

“数据人创作者联盟”成员

大家好,我是草帽小子~

上个系列篇《  阿里达摩盘:一文掌握阿里达摩盘的6大能力! 》,我们介绍了达摩盘DMP,接下来我们一起来探究阿里的品牌数据银行的能力。

01  初识品牌数据银行

品牌数据银行是阿里推出的消费者资产平台,融合了阿里全域渠道消费者数据以及品牌自有数据,助力品牌进行精细化分层运营。

品牌数据银行的数据包含阿里系消费者数据,如支付宝、阿里妈妈、天猫、菜鸟驿站、饿了么等;以及品牌自有的消费者数据,如站外媒体曝光、品牌的粉丝会员等。

如下图,看阿里系商家工具的对比,包含品牌数据银行、达摩盘、客户运营平台、生意参谋。从整体来看品牌数据银行,是从品牌的维度来看消费者的数据,而达摩盘等主要是从店铺维度;另外数据银行能力包含品牌全网消费者数据回流,数据范围和应用范围比达摩盘、生意参谋更广。

品牌数据银行由4A模型发展而来,即Aggregation融合、Analysis分析、Activation激活、Application应用,提供链路流转分析、自定义分析、会员粉丝分析等功能模块,帮助品牌快速、便捷地进行消费者运营,沉淀品牌消费者资产。

如下图,阿里品牌数据银行主要包含融合沉淀、分析诊断、数据激活、应用定制4大模块。

接下来,我们来揭开数据银行各个模块神秘的面纱。

02  Aggregation融合

01  消费者资产

为了帮助品牌持续沉淀消费者数据,还原消费者旅程,洞察品牌与消费者的亲疏关系,并持续深化与消费者关系,品牌数据银行提供了AIPL方法,来划分消费者分层。

消费者资产模块,包含消费者分析、全链路分析、链路流转分析。

消费者分析:划分了活跃消费者、消费者资产、活跃消费者对标、消费者周增长率、潜客-顾客比、关系周加深率。

全链路分析:划分A认知-I兴趣-P购买-L忠诚,看不同阶段的消费者人群整体变化趋势。

链路流转分析:划分认知、兴趣、购买、忠诚用户,在初始和结束阶段的人群流转。

草帽小子:消费者资产模块是品牌数据银行早期就有的能力,其核心在于AIPL模型。选择合适的用户分层,并围绕分层制定一定的转化策略,对于消费者资产平台而言至关重要。例如阿里有AIPL用户分层模型、京东有4A模型、字节有O-5A模型,这些模型本身比较浅显易懂,其背后对应的营销转化策略会更为复杂、重要。感兴趣的朋友可以加数据交流群一起探讨。

02  数据融合

品牌在发展过程中,会积累多方会员数据等,这些数据可以通过数据融合模块进行处理。数据融合模块包含上传人群、上传标签、一方人群、一方标签等。

草帽小子:该模块主要能更好地帮助商家用好自有数据。

03  Analysis分析

分析诊断模块,从粉丝会员、到商品分析,再到场景运营、活动沉淀分析、品牌增长分析等多视角进行深度分析。

01  场景运营

场景运营划分了新客拓展、高潜人群促转化、老客运营促复购、会员招募与运营、活动人群再营销、新品运营策略等。将一些核心的运营方式场景化,可以十分直观地给运营人员赋能。

草帽小子:场景运营是上新的能力,在分析的基础上,加入了更多运营策略模板,提升产品的易用性,这对我们做画像的人群推荐具有较大借鉴意义。

02  粉丝会员分析

粉丝会员分析,主要包含品牌会员、店铺会员,分析活跃会员、不活跃会员、购买会员、活跃未购会员。

03  商品分析

商品分析,构建人-商品之间的关系,分析单品上消费者行为。并进一步分析该单品的总互动人数、新增品牌认知、兴趣、购买、忠诚人数。

草帽小子:在用户分群过程中,我们划分的群体越多,运营人员反而越不知道怎么用,难以形成比较体系化的策略。而品牌数据银行做的比较好的是,使用了AIPL模型,将其贯穿至整个产品体系、分析体系、运营体系,从而发挥出数据产品的最大价值。

04  活动沉淀分析

活动沉淀分析,沉淀了消费者的活动数据,分析活动前1天和活动结束当天,消费者总量、品类购买力、消费者转化力数据,以及活动的拉新和留存效果分析。

草帽小子:营销活动在各大品牌促销应用上十分广泛,要统计好活动带来的效果,则需做好活动数据的回流、渠道数据归因等。这是重点也是难点,后续文章进一步研究。

05  自定义人群分析

还有比较基础的模块就是自定义人群分析,这主要是人群圈选模块,划分了以场圈人、以货圈人、属性圈人、IP粉丝圈人几种方式。这跟《 阿里达摩盘:圈选人群、渠道沉淀人群、智能迭代人群... 》构建方式类似。

草帽小子:通常属性圈人是人群圈选中较为常用的模块,需要结合一定的业务场景,例如在电商场景下,基于人-货-场的模型,可拓展成以货圈人、以场圈人等。在长租场景下,基于房-客模型,则为以房圈人。

04  Activation激活

数据激活主要是数据应用,根据品牌需求,将目标人群推送至钻展等多渠道。

这里的对接,分了很多渠道,包括阿里妈妈、CRM、策略中心、天猫营销平台、高德、支付宝、本地生活等等。

05  Application应用

应用模块主要包含应用市场和数据工厂。例如在应用市场能力上,品牌方可根据不同营销场景,订购服务商已打包好的完整解决方案。

草帽小子:场景运营策略需要一定的数据分析和营销经验才能得出,服务商可将其进行售卖,进行商业变现。由此也可看出消费者资产平台中,营销策略的重要性。

阅读全文

与阿里大数据之路相关的资料

热点内容
微信支付宝账单怎么看 浏览:448
眼镜看见老师内衣 浏览:322
激情床戏韩国古代 浏览:661
50部违禁小说 浏览:715
团鬼六电影 浏览:290
vip免费网站全免费 浏览:257
夏荷vs秋凝乳斗 浏览:420
苹果下载打不开怎么回事 浏览:765
刘凡菲地下车库什么电影 浏览:507
爱情动作电影名字 浏览:917
穿越雪域雄鹰之战神系统 浏览:233
关于越南缅甸的电影 浏览:436
朴银狐同类型演员 浏览:762
js时间保留2位 浏览:608
午马神电影 浏览:257
现代师徒训诫罚跪严苛 浏览:374
金花媛代表作 浏览:685
稚气by嗜酒吃茶txt下载 浏览:932
看免费大片网站 浏览:915
手机文件夹里哪些是没用的 浏览:802

友情链接