大数据业务框架_“大数据架构”用哪种框架更为合适

A. 大数据处理框架有哪些

1、批处理

批处理是大数据处理傍边的遍及需求，批处理主要操作大容量静态数专据集，并在核算进属程完成后返回成果。鉴于这样的处理模式，批处理有个明显的缺点，便是面对大规模的数据，在核算处理的功率上，不尽如人意。

现在来说，批处理在应对很多持久数据方面的体现极为出色，因而经常被用于对历史数据进行剖析。

2、流处理

批处理之后呈现的另一种遍及需求，便是流处理，针对实时进入体系的数据进行核算操作，处理成果马上可用，并会跟着新数据的抵达继续更新。

在实时性上，流处理体现优异，但是流处理同一时间只能处理一条(真正的流处理)或很少数(微批处理，Micro-batch Processing)数据，不同记录间只维持最少数的状况，对硬件的要求也要更高。

3、批处理+流处理

在实践的使用傍边，批处理和流处理一起存在的场景也很多，混合处理框架就旨在处理这类问题。供给一种数据处理的通用处理方案，不仅可以供给处理数据所需的办法，一起供给自己的集成项、库、东西，可满足图形剖析、机器学习、交互式查询等多种场景。

B. 大数据分析的框架有哪些，各自有什么特点

主流的大数据分析平台构架
1 Hadoop
Hadoop 采用 Map Rece 分布式计算框架，根据 GFS开发了 HDFS 分布式文件系统，根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon 以及国内的网络，阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。

2 Spark
Spark 是在 Hadoop 的基础上进行了一些架构上的改良。Spark 与Hadoop 最大的不同点在于，Hadoop 使用硬盘来存储数据，而Spark 使用内存来存储数据，因此 Spark 可以提供超过 Ha?doop 100 倍的运算速度。由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。
3 Storm
Storm是 Twitter 主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。
4Samza
Samza 是由 Linked In 开源的一项技术，是一个分布式流处理框架，专用于实时数据的处理，非常像Twitter的流处理系统Storm。不同的是Sam?za 基于 Hadoop，而且使用了 Linked In 自家的 Kafka 分布式消息系统。
Samza 非常适用于实时流数据处理的业务，如数据跟踪、日志服务、实时服务等应用，它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。

C. 什么是大数据的主流框架

大数据的框架肯定指的是分布式存储和分布式计算的框架
过去这个框架基本上被hadoop垄断，现在就不专一定了，现在很属多数据库已经开发出分布式版本，性能也比简单的hadoop要强劲，比如阿里的oceanbase，tidb
分步式计算框架目前也有spark，而且超越my proce，专门用来做大规模算的框架，也有一些，比如神经网络，Tensorflow就自带分布式功能

D. 大数据架构究竟用哪种框架更为合适

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。

一、大数据建设思路

1）数据的获得

通过大数据的引入和部署，可以达到如下效果：

1）数据整合

·统一数据模型：承载企业数据模型，促进企业各域数据逻辑模型的统一；

·统一数据标准：统一建立标准的数据编码目录，实现企业数据的标准化与统一存储；

·统一数据视图：实现统一数据视图，使企业在客户、产品和资源等视角获取到一致的信息。

2）数据质量管控

·数据质量校验：根据规则对所存储的数据进行一致性、完整性和准确性的校验，保证数据的一致性、完整性和准确性；

·数据质量管控：通过建立企业数据的质量标准、数据管控的组织、数据管控的流程，对数据质量进行统一管控，以达到数据质量逐步完善。

3）数据共享

·消除网状接口，建立大数据共享中心，为各业务系统提供共享数据，降低接口复杂度，提高系统间接口效率与质量；

·以实时或准实时的方式将整合或计算好的数据向外系统提供。

4）数据应用

·查询应用：平台实现条件不固定、不可预见、格式灵活的按需查询功能；

·固定报表应用：视统计维度和指标固定的分析结果的展示，可根据业务系统的需求，分析产生各种业务报表数据等；

·动态分析应用：按关心的维度和指标对数据进行主题性的分析，动态分析应用中维度和指标不固定。

四、总结

基于分布式技术构建的大数据平台能够有效降低数据存储成本，提升数据分析处理效率，并具备海量数据、高并发场景的支撑能力，可大幅缩短数据查询响应时间，满足企业各上层应用的数据需求。

E. 主流的大数据分析框架有哪些

1、Hadoop
Hadoop 采用 Map Rece 分布式计算框架，根据 GFS开发了 HDFS 分布式文件系统，根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon 以及国内的网络，阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。

2、Spark

Spark 是在 Hadoop 的基础上进行了一些架构上的改良。Spark 与Hadoop 最大的不同点在于，Hadoop 使用硬盘来存储数据，而Spark 使用内存来存储数据，因此 Spark 可以提供超过 Ha?doop 100 倍的运算速度。由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

3、 Storm

Storm 是 Twitter 主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

4、Samza

Samza 是由 Linked In 开源的一项技术，是一个分布式流处理框架，专用于实时数据的处理，非常像Twitter的流处理系统Storm。不同的是Sam?za 基于 Hadoop，而且使用了 Linked In 自家的 Kafka 分布式消息系统。

Samza 非常适用于实时流数据处理的业务，如数据跟踪、日志服务、实时服务等应用，它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。

F. 大数据平台架构有哪些

一、事务使用：其实指的是数据收集，你经过什么样的方法收集到数据。互联网收集数据相对简略，经过网页、App就能够收集到数据，比方许多银行现在都有自己的App。

更深层次的还能收集到用户的行为数据，能够切分出来许多维度，做很细的剖析。但是对于涉及到线下的行业，数据收集就需要借助各类的事务体系去完成。

二、数据集成：指的其实是ETL，指的是用户从数据源抽取出所需的数据，经过数据清洗,终究依照预先定义好的数据仓库模型，将数据加载到数据仓库中去。而这儿的Kettle仅仅ETL的其中一种。

三、数据存储：指的便是数据仓库的建设了，简略来说能够分为事务数据层(DW)、指标层、维度层、汇总层(DWA)。

四、数据同享层：表明在数据仓库与事务体系间提供数据同享服务。Web Service和Web API，代表的是一种数据间的衔接方法，还有一些其他衔接方法，能够依照自己的情况来确定。

五、数据剖析层：剖析函数就相对比较容易理解了，便是各种数学函数，比方K均值剖析、聚类、RMF模型等等。

六、数据展现：结果以什么样的方式呈现，其实便是数据可视化。这儿建议用敏捷BI，和传统BI不同的是，它能经过简略的拖拽就生成报表，学习成本较低。

七、数据访问：这个就比较简略了，看你是经过什么样的方法去查看这些数据，图中示例的是因为B/S架构，终究的可视化结果是经过浏览器访问的。

关于大数据平台架构有哪些，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章能够对你有所帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

G. 大数据常用处理框架有哪些

1、批处理

批处理是大数据处理傍边的遍及需求，批处理主要操作大容量静态数据集，并在核算进程完成后返回成果。鉴于这样的处理模式，批处理有个明显的缺点，便是面对大规模的数据，在核算处理的功率上，不尽如人意。

现在来说，批处理在应对很多持久数据方面的体现极为出色，因而经常被用于对历史数据进行剖析。

2、流处理

批处理之后呈现的另一种遍及需求，便是流处理，针对实时进入体系的数据进行核算操作，处理成果马上可用，并会跟着新数据的抵达继续更新。

3、批处理+流处理

关于大数据常用处理框架有哪些，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

H. “大数据架构”用哪种框架更为合适

个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能。
hadoop、spark、storm 无论哪一个，单独不可能完成上面的所有功能。

hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案，解决存储问题；hadoop maprece、hive、spark application、sparkSQL解决的是离线计算和即席查询的问题；spark streaming解决的是实时计算问题；另外，还需要HBase或者Redis等NOSQL技术来解决实时查询的问题。

除了这些，大数据平台中必不可少的需要任务调度系统和数据交换工具；
任务调度系统解决所有大数据平台中的任务调度与监控；数据交换工具解决其他数据源与HDFS之间的数据传输，比如：数据库到HDFS、HDFS到数据库等等。关于大数据平台的架构技术文章，可搜索"lxw的大数据田地"，里面有很多。

I. 大数据平台有哪些架构

传统大数据架构

以上的种种架构都围绕海量数据处理为主，Unifield架构则将机器学习和数据处理揉为一体，在流处理层新增了机器学习层。

优点：

提供了一套数据分析和机器学习结合的架构方案，解决了机器学习如何与数据平台进行结合的问题。

缺点：

实施复杂度更高，对于机器学习架构来说，从软件包到硬件部署都和数据分析平台有着非常大的差别，因此在实施过程中的难度系数更高。

适用场景：

有着大量数据需要分析，同时对机器学习方便又有着非常大的需求或者有规划。

大数据时代各种技术日新月异，想要保持竞争力就必须得不断地学习。写这些文章的目的是希望能帮到一些人了解学习大数据相关知识。加米谷大数据，大数据人才培养机构，喜欢的同学可关注下，每天花一点时间学习，长期积累总是会有收获的。

J. 大数据处理时使用的框架

大数据处理目前（2020年12月）主流使用hadoop框架，另外数据挖掘和机器学习为主的应用可使用spark框架。

导航:首页 > 网络数据 > 大数据业务框架

大数据业务框架

与大数据业务框架相关的资料

友情链接