导航:首页 > 网络数据 > 马化腾大数据技术

马化腾大数据技术

发布时间:2022-09-20 19:44:43

㈠ 腾讯云IaaS全线升级,剑指大数据风口

8月23日,腾讯云对外宣布正式全线升级IaaS产品,多款产品全面升级,但除此之外更为让人关注的是,此次腾讯云还一口气发布了五款重量级数据库产品,并公布数据库产品矩阵。

腾讯云数据库基本上涵盖了业界主流的数据库产品,在关系型,非关系型、分布式等均有多个产品,今年年内还将上线分析性数据库等产品,腾讯云在数据库上的新动作,让它一跃成为云数据库领域最强有力的引领者。

腾讯云向来不会随意出手,每次产品的推出都有着具体落地的用户需求,从游戏解决方案再到视频直播服务,腾讯云动作频频的背后是在为市场解决实际的问题,而在此次五款数据库发布的背后,腾讯云又看到了怎样的未来?

一,此次腾讯云数据库更新发布了什么

此次腾讯云推出了五款数据库分别为SQL Server 2012、云数据库MySQL、云数据库HBase、云数据库PostgreSQL、分布式数据库TDSQL。其中SQL Server 2012的主要目的是为了补充数据库的全面性,而其余四款均与云风口——大数据有关,均满足了企业在大数据时代,对数据库的高性能并发管理与控制的需求,以及在数据挖掘、海量存储、智能商务运算上的需求,

云数据库MySQL:摆脱传统MySQL数据存储的限制,将数据库直接搬入到更为安全可靠的云端,有着大容量、大内存、高读写、高并发的特性。QPS最高高达24万,内存最大支持488GB,容量空间最大支持6T。

云数据库HBase:适合于TB级别的数据库,满足大数据分析、开发的需求,性能高、高效二级索引方案,数据监控颗粒度细。用户只需要提交作业,就能获得结果,无需考虑存储容量以及运算瓶颈,腾讯云将全方位解决。

云数据库PostgreSQL:基于业界知名的、可以与商业数据库Oracle媲美的开源数据库PostgreSQL,腾讯云通过优化使得性能比开源版本提升十倍,最大QPS可达10万。同时下半年腾讯云还会推出更为强大的分布式PostgreSQL。

分布式数据库TDSQL:企业级云数据库,能够满足大量的大数据使用场景,目前微众银行、微信支付、安心保险等等金融产品都是采用TDSQL,有着雄厚实力。

二,云数据库正在大数据的风口之上

越来越多的企业正在接入互联网,面临着大数据增长的难题。在去年9月国务院正式发布了《国务院关于印发促进大数据发展行动纲要的通知》,这意味着大数据开始受到国家层面的重视。在今年5月举办的中国大数据产业峰会上,马化腾提出了利用大数据“共建云中大数据生态”的理念,因此腾讯也背负着建立云端数据的责任,而腾讯云的使命不小。

云数据库则是大数据存放的关键,是整个大数据战略重中之重,而未来的以下企业将会需要腾讯云数据库的帮助。

1)尚未完全接入互联网的企业,事实上很多传统行业都具备着较强的IT意识,并且在最初就建立起了自己的计算机数据管理,最典型的就是金融行业,在早期信息化帮助其提升了效率,但是后期的金融行业却无法让这些数据得以有效利用,而腾讯云数据库则可以极好的满足这点,微众银行、微信支付都已经做出了出色的案例。

2)已经接入互联网的企业,很多接入互联网的企业也在面临一个问题,在早期没有腾讯云这样优质的云服务商,因此他们需要自建服务器,并且自己承担起各种昂贵IT设施维护成本,并且需要配备一群高工资的高级工程才能够进行大数据的利用。

但腾讯云则可以帮助这类企业实现彻底的解放,企业不再需要自己搭建任何设备、配置任何环境,企业只需要将数据托付于腾讯云就可以完成以前高代价的事情,而腾讯云除了大数据处理技术之外,还拥有各种服务器、安全防护、视频解决方案、游戏解决方案等等顶级成熟技术方案,直接帮助企业完成“云端生态”的转型与跨越。

3)新兴创业互联网公司,其天然需要托管自己产品的数据,而初创公司众所周知不仅缺少技术能力,还在资金方面捉襟见肘,而腾讯云则不仅可以帮助其管理好数据,还可以在安全、弹性扩容各方面对其进行全方位的保障,并且价格也极为低廉,是创业者的最大福音。

三,腾讯全面开放自身技术,全社会在享受福利

马化腾此前在今年5月举办的中国大数据产业峰会表示,腾讯数据中心的储存量已经超过1000PB数据,并持续以每天500TB速度飞速上升,而腾讯愿意将这些积累开放给更多的合作伙伴。

腾讯云一直对外表示基于腾讯18年技术和经验积累后的全面开放技术,这里来看看这次腾讯云究竟开放哪些腾讯核心技术:

此次推出的分布式数据库TDSQL,在腾讯核心计费系统使用了超过10年时间,一直应用于腾讯充值、米大师等腾讯核心业务;也已经将其应用到了外部安心保险、泛华保险、微众银行、汇通天下等金融、物联网领域。由于其针对金融业务设计,除了满足云数据库的弹性、自动化运维、高性价比以外,还支持两地三中心架构,拥有金融级高可用、数据强一致、金融级的安全要求;相关项目都通过了监管部门的信息安全审核。

值得一提的是,此次腾讯云推出的云数据库PostgreSQL,选用的是腾讯自研PostgreSQL内核,在腾讯内全面应用超过5年,包括微信支付、财付通、广点通、大数据处理平台的核心系统都在使用腾讯自研PostgreSQL。

根据笔者了解,腾讯内部的大数据集群有近万台设备,所有元数据都存储于腾讯自研PostgreSQL;月计算数据量超过300PB,99%的请求1秒内响应。而这些成绩的背后,全部是因为有腾讯自研的PostgreSQL的技术实力作为后盾支撑。

而腾讯云开放的云数据库PostgreSQL除了满足云数据库的弹性、自动化运维、高性价比以外,还优化了多个关键内核,且支持两地三中心架构,高可用方案,超高计算性能。

腾讯能够将涉及计费的核心技术的TDSQL、超过5年的自研PostgreSQL向社会开放,充分体现了其开放共享的心态,其正在利用腾讯云积极推进中国的大数据建设,也是属于全社会的福利。

结语:

腾讯云此次推出的五款云数据产品,暗合着大数据蓬勃发展的趋势,而腾讯正在全面开放自己的技术,将自己的多年积累与整个社会共享。传统企业、创业者们都应当抓住机遇,站在巨人的肩膀上,利用腾讯云的开放,来迅速完成自己在大数据时代的转型与创业。

更关注产品与技术的微信公众号:“首席发言者”

㈡ 马化腾内部发文:我相信又一场大洗牌即将开始,大洗牌指的是什么

马化腾为《三观》撰写了前言。“三观”指的是世界观、价值观、人生观。该特刊以一年为单位,每年临近年底的时候发布,记录腾讯的成长和主要变化。马化腾写道,在这个黑天鹅满天飞的时代,“相信又一场大洗牌即将开始。就像移动互联网转型一样,上不了船的人将逐渐落伍”。

一、马化腾在《三观》中提到的大洗牌实际指的是升级电子科技与实际生活的紧密结合。由于二零二零年疫情的影响,各行各业都受到了或大或小的影响,受到影响较为严重的,由于欠债较多、公司倒闭,那么这次疫情对于那些位于顶端的公司究竟有多大的影响呢?首先,腾讯公司的老总马化腾认识到“大洗牌”即将开始,腾讯公司通过研究这次疫情对于人们生活影响的大数据发现此次疫情人们对于电子科技的依赖增加了,电子产品开始全面覆盖人们生活。

㈢ 大数据赋能下的“互联网+医疗”

大数据赋能下的“互联网+医疗”
近年来,“互联网+”热度持续上升。在2018年政府工作报告中,共有7处提及“互联网+”。“做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进“互联网+”,写进了对今年政府工作的建议中。而在今年两会上,多位科技大佬就健康大数据以及人工智能在“互联网+医疗”领域的应用提出建议。

人工智能辅助基层医疗
移动互联网、大数据、云计算、物联网、人工智能等数字技术有效提升了健康医疗产业的信息化、网络化、智能化水平。随着5G、区块链等新技术的突破与应用,数字技术还将为健康医疗事业带来更深远的影响。但无论是互联网+医疗还是AI+医疗,当下最亟需的应用场景其实在基层。
全国人大代表、腾讯公司董事会主席兼首席执行官马化腾建议,在医疗欠发达地区和基层机构可以率先推广人工智能辅诊等技术,如腾讯结合医疗影像与人工智能技术的“觅影”平台,目前已成为医疗机构的癌症辅助筛查工具;通过AR、VR、直播等方式,基层医生能与专家远程会诊和交流,这些都将有效改善医疗资源不足的现状,推动优质医疗资源精准下沉。
全国政协委员、搜狗公司CEO王小川建议,利用数字技术将优质资源广泛贯通至患者末端,打通医疗惠民“最后一公里”,提供“核心医院+基层卫生服务机构+数字家庭医生”三级供给模式,提升医疗效率和准确率,助推分级诊疗,力争实现每个中国家庭都有家庭医生,促进医疗全民普惠。
健康大数据应用挑战多
虽然大数据应用如火如荼,但目前实现数字技术在健康医疗事业中应用还存在诸多挑战。例如政府部门之间,医疗机构之间,医疗机构和服务企业之间都存在不同程度的数据壁垒。同时,移动互联网、大数据和人工智能等新技术与健康医疗产业融合方面还存在较多政策、标准、法规和技术壁垒。
对此,马化腾建议以云计算、大数据等数字技术为载体和手段,建立跨部门、跨领域健康医疗机构间的数据共享机制,实现健康医疗大数据的规范采集、集成共享和合规应用,提升管理和服务的精准度,助力国家建设全方位、全周期人口健康信息平台。建议立法明确管理机构、医疗机构、市场主体、患者个人等各方主体对医疗数据的权属关系。建立由政府牵头、多方参与的健康医疗领域开放创新平台,加强成熟技术和顶级专家经验共享,破解数字技术与医疗行业融合的共性难题,降低数字技术大规模推广应用的技术门槛。
“人工智能+医疗”离不开高质量的健康医疗数据,全国人大代表、科大讯飞董事长刘庆峰表示,目前,现有的优质健康医疗数据更多集中在院内诊疗过程,且以专科疾病为主,常见病、慢性病、患者行为等健康数据并不完善,制约了人工智能技术在医改任务中充分发挥作用。他建议,将智能语音技术列入国家健康医疗大数据战略发展布局。在此基础上,建立国家健康医疗语音数据应用规范,实现覆盖采集、应用和管理的全生命周期、全方位的健康医疗大数据体系。

㈣ 马化腾的技术能力在什么样的水平

100分为满分的话,他的编码水平应该是在70分左右,马化腾在一次采访中说道,原本他是准备走天文方面的路,研究自然科学领域的,考大学那会,因为听说去天文台的很少,毕业大部分都是做老师的比较多,他觉得自己会不会毕业后搞不好就做老师了,后来那会刚好接触到了计算机,出于兴趣,才报考深大的计算机系。在大学时期他的编码能力也不是最强的,求学成绩也是前五左右,但他的管理水平很高,弥补了他的编程能力,才造就了企鹅帝国。网上也有流传他的代码

㈤ 马化腾的技术能力在什么样的水平

马化腾的技术能力水平应该是挺高的,因为她学习也非常高,而且他能取得这么高的成就说明他自己的水平也是很高的。

㈥ 大数据快步迈进实用门槛

大数据快步迈进实用门槛

近年来,深圳出入境检验检疫局依托大数据、物联网、云计算等新兴信息技术,打造“智慧口岸”。图为食检中心的工作人员在处理抽检食品的检验数据。
宁夏吴忠市供热公司打造信息化供热平台,通过对供热管网能耗、室内外温度、用户需求热量等进行大数据分析,实现了传统粗放式供热模式向精准供热的转变。 新华社记者 王 鹏摄 新华社记者 鲁 鹏摄
镜头一:“传统唱片公司选择线上直播演唱会,不仅是为了增加传播渠道。网友预定演出时留下自己的QQ号,通过数据挖掘,我们就可以知道某个艺人歌迷的地域分布,最喜欢听什么歌,关注什么新闻等。有的公司据此调整了艺人线下演唱会的安排。”腾讯视频live music音乐总监邓林海说。
镜头二:互联网服装品牌裂帛副总裁大禹说:“柔性供应链的底气就是大数据,我们投入3000多万元开发了一整套系统,能随时看到任何一个品牌某一天某个品类的价格、售罄率,以及自己品牌服装的毛利率和消费者反馈,这样每单只要下300到500件,然后根据预测不断快速翻单。”
镜头三:2015年12月底,《关于认真做好2016年春运工作的通知》中特别提出,要探索利用大数据分析旅客出行规律,创新春运组织,提高服务品质,使广大旅客不仅“走得了”,还要“走得好、走得满意”。
这些都是大数据在垂直行业中的创新应用,而在2015年这个“大数据元年”,类似的应用不胜枚举。这一年,顶层设计出炉,《促进大数据发展行动纲要》发布,“十三五”规划建议中明确提出实施国家大数据战略;这一年,交易体系逐渐形成,贵阳大数据交易所挂牌运营,各地纷纷跟进;这一年,大数据应用更是“生根开花”,来自市场研究机构IDC的报告显示,2012年中国总体数据量占世界的13%,而到2020年将提高到21%。这些数据正在释放能量。
《2015年中国大数据发展调查报告》显示,2015年中国大数据市场规模达到115.9亿元,增速达38%。中国银行[0.00% 资金 研报]副行长朱鹤新表示:“大数据在我国已具备了从概念到应用落地的成熟条件,迎来了飞速发展的黄金机遇期。大数据将在打造社会治理新模式、经济运行新机制、民生服务新体系、创新驱动新格局、产业发展新生态等方面发挥重要作用。”
“游戏规则”渐成体系
在2015年两会上,腾讯董事会主席马化腾的一份建议有关政府数据开放,他表示:“公共数据的开放成为数据基础设施的基石,相互连接和数据共通的重要渠道,当务之急是打破各领域的信息孤岛,推动全社会对信息资源的开发利用。”不到一年的时间里,这一“瓶颈”正随着“游戏规则”的快速建立得以突破。
在诸多游戏规则中,提纲挈领者自然是国务院2015年9月发布的《促进大数据发展行动纲要》(以下简称“《纲要》”),这一顶层设计被视为解决政府数据开放共享不足、产业基础薄弱、缺乏统筹规划、创新应用领域不广等一系列问题的“抓手”。拿政府开放数据来说,《纲要》提出,2017年底前形成跨部门数据资源共享共用格局;2018年底前建成国家政府数据统一开放平台,率先在信用、交通、医疗、卫生、就业、社保等重要领域实现公共数据资源合理适度向社会开放。国家信息中心信息化研究部副主任单志广认为:“这体现出政府促进大数据开放与共享的决心。”
纲举目张,2015年也由此成为各部委和各地政府的“数据开放年”。农业部在2015年底发布的《关于推进农业农村大数据发展的实施意见》中提出,“农业部各类统计报表、各类数据调查样本和调查结果、通过遥感等现代信息技术手段获取的数据、各类政府网站形成的文件资料、政府购买的商业性数据等在国家农业数据中心平台共享共用。”在地方,北京、上海、佛山、青岛、贵州等多个省市的数据开放平台已纷纷上线,拿上海来说,目前已初步建立实有人口库、法人库、空间地理等三大基础信息库,累计编制资源目录数1.1万条、数据项14.58万个,政务数据资源目录体系逐渐成型。
不过,开放只是应用的基础。在浪潮集团董事长孙丕恕看来,数据要体现价值,还必须走市场化的道路,在政府开放数据之外,还要使数据交易和交换“常态化”。大数据交易平台也由此应运而生。
2015年4月,全球第一个大数据交易所贵阳大数据交易所挂牌,7月,长江大数据交易所(筹)和东湖大数据交易中心在武汉成立,12月华东江苏大数据交易中心平台上线运营。贵阳大数据交易所执行总裁王叁寿介绍说,截至2015年底,贵阳大数据交易所交易金额突破6000万元;会员数量超过300家,接入的数据源公司超过100家,数据类型涵盖贸易通[-3.19%]关大数据、专利类大数据、企业征信大数据、企业工商大数据等,数据总理超过10PB。
创新应用纵深发展
“2015年下半年,不少多年无法执行到位的案件的被执行人会突然找到法院来,要求还清欠款,把自己从‘老赖’名单中抹去,这就是执法创新结合互联网大数据所体现出的能量。”广东省中山市第一人民法院法官王念颇为感慨。
“老赖”是对拒不执行判决、裁定的被执行人的形象称呼。2015年7月,最高人民法院与芝麻信用合作,开创了通过互联网联合信用惩戒的先河。在与芝麻信用合作的各平台商家中,“老赖”无法预订机票、软卧车票、三星级以上酒店甚至度假产品。半年里,共计5300多名失信被执行人因此还清债务,其中1500多名失信被执行人是长达三四年、一直逃避执行的“老赖”。
这正是互联网大数据创新应用的一个缩影,其基础是我国高度成熟的消费互联网。与“真金白银”挂钩,这也成为大数据创新应用最活跃的领域。
电子商务、物流配送、互联网金融、O2O,垂直领域的大数据应用正在切实帮助企业提升效率,创新模式。在电商领域,京东目前数据总存储量达到50+PB,年增长300%。大数据已经全面用于用户消费行为的深度挖掘、精准营销、销量预测与库房自动补货、搜索推荐系统的持续优化等环节。滴滴出行战略负责人朱景士则表示:“滴滴每天数据分析量级是50TB,大约是5万部高清电影,每天连续上传的定位数据是50亿次。根据这些数据,滴滴可以不断提高算法精度,优化路线,比如我们在上海为乘客推荐上车地点,设立了滴滴车站,就能让司机更容易找到乘客。”
而在消费互联网之外,大数据应用还在向产业互联网延伸。一方面,为用户“画像”,让企业对用户进行细分,提升业务精准度成为热门。2015年12月23日,大数据服务商百分点发布用户标签管理系统。百分点董事长苏萌告诉记者,通过这样的系统,企业能够根据业务需求定义用户标签,并且直接利用组合功能创建新标签,从而迅速找到目标用户,“支撑企业快速对接大数据技术及数据服务,实现智能化的业务应用”。
在另一方面,在生产端,大数据的“流动”同样帮助企业提升智能制造水平。软控股份有限公司总裁郑江家表示:“轮胎制造的密炼环节像‘和面’,通过打通数据流,可以实现上下工序的智能互动。如果‘水’多‘面’软,这些数据就会被传输到下一步压胶环节,就能自动把‘饺子皮’擀得厚一点,不再需要人工处理。产品品质也就提升了。”山东省青岛市经济和信息化委员会主任项阳青也认为:“数据驱动是智能制造的关键,这才能带来基于互联网思维下的全生命周期创新。”

㈦ 马化腾为什么要在贵州打造数据中心

马化腾要在贵州建设数据中心,是因为贵州确实是建设超级数据中心的首选。


马化腾向出席开工仪式的领导和嘉宾介绍了腾讯大数据的最新发展情况,并表示“腾讯一直关注贵州大数据产业的发展,贵州有得天独厚的自然条件,能源充足,是一座山城,山洞里面恒温恒湿的条件,是数据中心的天然、优质基础条件。腾讯能够在贵州这样一个大数据产业的福地落地数据中心建设项目并举行开工仪式,是一件让人开心和振奋的事情。”

总之,马化腾要在贵州建立数据中心,就是因为贵州建设数据中心,安全可靠,而且节约成本。

㈧ 马云马化腾雷军等大佬在大数据峰会都说了啥

■马化腾:用移动互联网防止雾霾
两会之前,柴静的《穹顶之下》用互联网的方式已经做了预热,同样今年两会中腾讯CEO马化腾的提案一经曝光,引起了大众的热烈讨论。他表示,随着移动互联网、大数据、云计算、物联网与人工智能等新技术的快速发展,各行业现在都在围绕互联网做融合创新,不仅有助产业升级,还能促进大众创业,极大方便人民生活。“政府部门应当加快移动互联网在民生领域的普及和应用,把‘人与公共服务’通过数字化的方式全面连接起来,有助于解决看病难、教育资源不均衡以及防治雾霾等新老重大民生问题。”
■李彦宏:设立国家层面的“中国大脑”计划
网络CEO李彦宏在今年两会提出设立国家层面的“中国大脑”计划。以智能人机交互、大数据分析预测、自动驾驶,智能医疗诊断,智能无人机,军民机器人技术等为重要研究领域;支持有能力的企业搭建人工智能基础资源和公共服务平台,面向不同研究领域开放平台资源,高效对接社会资源,依托统一平台协同创新。距离网络成立IDL研究院已经过去了两年,而网络的财报显示,从2013年开始,网络的研发费用大幅提升。
■雷军:把互联网纳入国家战略
小米科技的董事长兼CEO雷军则在今年的提议中,建议把互联网纳入国家战略,更好地把握互联网的时机待遇,用互联网来更快的推动传统产业的转型升级。且他通过三点来阐述了自己的观点:
1、经过过去十五年的发展,中国互联网行业已经具备相当大的规模,在全球前五的互联网公司中,三家美国公司,两家中国公司;全球前七,四家美国公司,三家中国公司。中国已经领先了日本韩国欧洲等发达国家,这是非常巨大的进步。
2、过去的互联网主要涉足的领域是传媒、软件、游戏和零售等行业,而近几年开始渗透更多的传统企业。小米就是通过互联网涉足手机行业,在2011年10月上市,第一年2012年126.5亿,预计到今年600-700亿,明年有比较大把握过千亿。这就是互联网的威力。
3、要把握移动互联网的巨大机遇,如今所有的互联网公司都在努力抢分移动互联网这块新蛋糕,没有移动互联网,就没有未来。目前最成功的莫属腾讯,做微信至今三年,目前已经超过四亿活跃用户,市值也从500亿美元涨到1500亿,是目前最大的赢家。

㈨ 如何评价马化腾称正在贵州打造数据中心

在两会期间马化腾谈到了在贵州建设数据中心的问题,实际上这是贵州的记忆,也是全球互联网巨头的机遇。


据悉,腾讯贵安七星绿色数据中心的灾备数据区域隐藏在山体隧道内,与周围树林及自然环境融为一体,并设置了三层防护网保证了数据中心最高的安全防护等级。同时,数据中心还借助隧道山体及岩层的物理特性,结合贵州良好的气候、绿色电力以及最新的T-block技术,使数据中心实现高效绿色节能。

总之,马化腾在贵州建立数据中心,正是看中了贵州的资源优势,环境优势,政策优势。

㈩ BAT三巨头开始挖掘大数据

BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。
概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。
BAT都是大矿主,但矿山性质不同
数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
网络拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
下面,就将三家公司的情况一一扫描与分析。
一、网络:含着数据出生且拥有挖掘技术,研究和实用结合
搜索巨头网络围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
除了网页外,网络还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管网络拥有核心技术和数据矿山,却还没有发挥出最大潜力。网络指数、网络统计等产品算是对数据挖掘的一些初级应用,与Google相比,网络在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。
2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。
接下来,网络会向企业提供更多的数据和数据服务。前期网络与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。
网络还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管网络已经出发,其在大数据上可做的事情还有很多。
在数据收集方面,网络需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。
在数据处理技术上,网络成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,网络等探索者还有很多待解问题,如:无监督式学习、立体图像识别。
在数据变现方面,网络需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。
网络的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面网络是聚集国内最多大数据相关领域顶尖人才的公司。听说网络前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。
在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。
总体来看,网络拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
二、腾讯:数据为产品所用,自产自销
微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。
腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占14.1%;网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。
在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢?笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。
在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。
腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向网络、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢?不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上网络,就难了。除非将网络的数据和众大牛一起倒腾过来。
总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。
总结一下
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。

阅读全文

与马化腾大数据技术相关的资料

热点内容
struts2resultjsp 浏览:403
七个星期五app怎么切换中文 浏览:342
华为路由器console登录密码设置 浏览:682
测试大数据包 浏览:801
新网站如何做好优化 浏览:703
晋江共享电动汽车app 浏览:997
90版本女机械师加点 浏览:527
微信支付普通网站 浏览:370
小学试卷的网站有哪些 浏览:338
我不想升级win10 浏览:858
linux无法重启 浏览:216
pdf格式文件怎么涂鸦 浏览:831
苹果手机6splus调节震动 浏览:501
iphone系统图标替换 浏览:365
文件名和扩展名是什么 浏览:148
买口红哪个app是正品 浏览:53
大数据营销优劣势 浏览:499
java四年一直在小公司 浏览:607
华为升级后认不到sd卡 浏览:83
不能在数据库对象打开时 浏览:481

友情链接