导航:首页 > 网络数据 > 大数据的技术难题

大数据的技术难题

发布时间:2021-12-05 02:13:28

1. 数据分析技术解决了哪些难题

在过去的二十多年里,几万亿美元的投资被用于建立名目繁多的各类数据采集、管理、和上报系统。单个来看,每个系统都有其存在的原因和道理。但从总体角度看,数据却是一片混乱。数据孤岛、混乱的定义、不统一的格式、各异的标准等给数据分析造成了极大障碍。通过网络、社交、视频、传感器等手段源源不断地积累的无结构、半结构数据更加大了数据清理、过滤、重组、标准化工作的难度。因此,今天数据分析面临的最大挑战就是如何应用数据科学的理论、方法论、和大数据技术高速、高质地把数据正确地整合以支持数据分析和智能决策。
数据整合的技术挑战有六个方面:
第一、大规模数据收集和管理(Data Curation at Scale)
数据收集和管理经历了三代技术更新。第一代的数据仓库(Data Warehouse)出现于1990年代。主要功能是数据提取、转换、上传(Extract, Transform, and Load- ETL)。第二代技术成熟于2000年代。它主要是在ETL的基础上增加了数据清理,不同类型数据库的兼容,相关数据自动转换(如欧元转化为美元)等功能。这两代技术都不适于大规模数据收集(成百上千个数据源)。第三代技术随大数据时代的到来而兴起于2010年代。它的核心技术是应用统计模型和机器学习使数据的收集和管理实现自动化为主,人员干预为辅使高速优质的大规模数据收集成为可能。
第二、数据管理的新思路
过去几十年里,自上而下的数据管理理念一直占有统治地位。这种思维方式的基本假设是只有通过统一规划才能达到数据的统一定义,标准,管理,储存,使用。可实践证明,由于每个公司和组织都在不断变化,中央设计的数据管理系统似乎永远无法完成。即使完成了也已经过时。系统的设计者与使用者之间总是有一道隔阂,计划赶不上变化。企业为此浪费了大量的钱财和时间。
近十年来,一种自下而上的数据管理理念逐渐引起人们的关注。它的思维方式有五个特点:(1)联邦式管理,中央和地方分权。公司总部和分公司协商数据定义和管理的职责和权力;(2)允许各级管理人员使用各种现成的工具而不是等待中央系统提供;(3)不断登记注册各种相关数据而不等待统一数据模型;(4)保持数据管理系统简单直观;(5)建立尊重数据的环境以改进数据的管理和使用。
第三、数据清理的挑战
如何处理混杂不干净的海量数据是大数据分析难以避免的挑战。至今为止还没有出现比较理想的数据清理的工作平台。产生这一情况的主要原因是数据质量问题的诊断、梳理、验证、以至修正都离不开人的参与。只有通过人工产生了数据清理的程序、逻辑和方法后,才能使用软件工具快速清理数据。每个新数据源都有其特殊的数据质量问题,这使得开发通用型数据清理平台极为困难。
第四、数据科学:数据主导的认知(Data Intensive Discovery)
近年来以数据为主导的分析(Data Intensive Analysis – DIA)成为数据科学的新热点。DIA也被称为大数据分析,是数据科学的新分支。它使人类突破了自身思维能力的极限(人脑只能同时分析10个以下变量的模型)。应用大数据技术可以高速地找出千百个变量的相关性。传统的科学实证思维模式是以理论为出发点提出假设,然后选择分析方法,再采集数据来验证假设。大数据分析拓展了人类的认知能力。这使以数据为主导的科学发现成为可能。这种新的认知框架从数据出发,发现相关性后寻找理论解释,然后应用科学的方法验证。有人称其为第四代认知框架(the Fourth Paradigm)。
第五、从软件开发运作(DevOrp)到数据应用运作(DataOrp)
软件开发经过多年的经验积累已形成了一套有效的设计、开发、测试、质量管理模式和一系列相关的工具(DevOrp)。今天,数据工程师、数据科学家、数据库管理员等也需要类似的数据应用运作程序和相关工具(DataOrp)。这是一套新的基础设施,有人称之为数据技术(DT)。
第六、数据统一是使现有数据系统产生价值的最佳战略
如何将企业里分散的数据整合以实现全公司层面的决策支持是一个令人非常头痛的事。为迎接这一挑战,一个新的理念和技术“数据统一化”(Data Unification)被越来越多的人接受。这个技术包括三个步骤:(1)数据登记注册(Catalog),即保持原始数据不变又为中心数据库提供完整数据记录,(2)数据库连接(Connect),使各个分散数据库通过互联网在需要时即时连接,(3)数据公布(Publish),按照分析需求将不同数据库的数据统一定义、连接后提供给数据分析人员。这个技术的核心是应用统计概率模型自动地在数据库连接过程中使数据统一化。数据统一化已成为大数据处理过程中的一个重要组成部分。
数据分析上的竞争将会日趋激烈。只有面对以上挑战而不断创新的企业才能率先实现以数据分析为主导的智能决策。

2. 大数据爆发性增长 存储技术面临难题

大数据爆发性增长 存储技术面临难题

随着大数据应用的爆发性增长,大数据已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。从目前技术发展的情况来看,大数据存储技术的发展正面临着以下几个难题:

1、容量问题

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。

“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

2、延迟问题

“大数据”应用还存在实时性的问题。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。

3、并发访问

一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

4、安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。

5、成本问题

成本问题“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。

对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。

6、数据的积累

许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

7、数据的灵活性

大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

存储介质正在改变,云计算倍受青睐

存储之于安防的地位,其已经不仅是一个设备而已,而是已经升华到了一个解决方案平台的地步。作为图像数据和报警事件记录的载体,存储的重要性是不言而喻的。

安防监控应用对存储的需求是什么?首先,海量存储的需求。其次,性能的要求。第三,价格的敏感度。第四,集中管理的要求。第五,网络化要求。安防监控技术发展到今天经历了三个阶段,即:模拟化、数字化、网络化。与之相适应,监控数据存储也经历了多个阶段,即:VCR模拟数据存储、DVR数字数据存储,到现在的集中网络存储,以及发展到云存储阶段,正是在一步步迎合这种市场需求。在未来,安防监控随着高清化,网络化,智能化的不断发展,将对现有存储方案带来不断挑战,包括容量、带宽的扩展问题和管理问题。那么,基于大数据战略的海量存储系统--云存储就倍受青睐了。

基于大数据战略的安防存储优势明显

当前社会对于数据的依赖是前所未有的,数据已变成与硬资产和人同等重要的重要资料。如何存好、保护好、使用好这些海量的大数据,是安防行业面临的重要问题之一。那么基于大数据战略的安防存储其优势何在?

目前的存储市场上,原有的视频监控方案容量、带宽难以扩展。客户往往需要采购更多更高端的设备来扩充容量,提高性能,随之带来的是成本的急剧增长以及系统复杂性的激增。同时,传统的存储模式很难在完全没有业务停顿的情况下进行升级,扩容会对业务带来巨大影响。其次,传统的视频监控方案难于管理。由于视频监控系统一般规模较大,分布特征明显,大多独立管理,这样就把整个系统分割成了多个管理孤岛,相互之间通信困难,难以协调工作,以提高整体性能。除此之外,绿色、安全等也是传统视频监控方案所面临的突出问题。

基于大数据战略的云存储技术与生俱来的高扩展、易管理、高安全等特性为传统存储面临的问题带来了解决的契机。利用云存储,用户可以方便的进行容量、带宽扩展,而不必停止业务,或改变系统架构。同时,云存储还具有高安全、低成本、绿色节能等特点。基于云存储的视频监控解决方案是客户应对挑战很好的选择。王宇说,进入二十一世纪,云存储作为一种新的存储架构,已逐步走入应用阶段,云存储不仅轻松突破了SAN的性能瓶颈,而且可以实现性能与容量的线性扩展,这对于拥有大量数据的安防监控用户来说是一个新选择。

以英特尔推出的Hadoop分布式文件系统(HDFS)为例,其提供了一个高度容错性和高吞吐量的海量数据存储解决方案。目前已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。

随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。最重要的是,其可以满足以下特性:可自我修复的分布式文件存储系统,高可扩展性,无需停机动态扩容,高可靠性,数据自动检测和复制,高吞吐量访问,消除访问瓶颈,使用低成本存储和服务器构建。

以上是小编为大家分享的关于大数据爆发性增长 存储技术面临难题的相关内容,更多信息可以关注环球青藤分享更多干货

3. 大数据在开发中遇到的困难怎么解决方案

大数据时代下的信息技术日存在的问题:

第一:运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战;

第二:大数据处理和分析的能力远远不及理想中水平,数据量的快速增长,对存储技术提出了挑战;同时,需要高速信息传输能力支持,与低密度有价值数据的快速分析、处理能力。

第三:部分早期的Hadoop项目将面临挑战;

第四:大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好,乃至企业用户的商业机密,对个人隐私问题必须引起充分重视;

第五:大数据时代的基本特征,决定其在技术与商业模式上有巨大的创新空间,如何创新已成为大数据时代的一个首要问题;

第六:大数据时代对政府制订规则与监管部门发挥作用提出了新的挑战 大数据时代面临挑战的应对策略:

1、合理获取数据

在大数据时代,数据的产生速度飞快而且体量庞大,往往以TB或YB甚至是ZB来衡量。各种机构、个人都在不断地向外产生和发布结构化与非结构化的复杂数据,并进行数据交换,如人们当前最常用的数据来源渠道——互联网,每天的数据交换量已极为惊人。

2、存储随需而变

美国一家知名的 DVD 租赁企业每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。

3、筛选与分析大数据

充分利用数据“洞察”自己身边的人或物,在诸多供给方当中精准地匹配自身需求,从而最大限度地满足自身吁求也是大数据价值的应有之义。

4、理性面对大数据的价值诱惑

毫无疑问,大数据时代将是商业智能“大显身手”的时代。企业利用发达的数据挖掘技术正日益精准地揣摩着消费者心态,并运用各种手段对其“循循善诱” 。

5、云计算和大数据相辅相成

为了满足大数据的需求,商务智能软件必须改变。

4. 该如何精细地学大数据开发 会遇到哪些难点

大数据开发怎么学习?由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚。

附上大数据工程师技能图:

零基础学习大数据一般有以下几步:

了解大数据理论;计算机编程语言学习;大数据相关课程学习;实战项目

(1)了解大数据理论

要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你才能清楚自己对大数据究竟是否有兴趣,如果对大数据一无所知就开始学习,有可能学着学着发现自己其实不喜欢,这样浪费了时间精力,可能还浪费了金钱。所以想要学习大数据,需要先对大数据有一个大概的了解。

(2)计算机编程语言的学习

对于零基础的朋友,一开始入门可能不会太简单,大数据开发的学习是需要java基础的,而对于从来没有接触过编程的朋友来说,要从零开始学习,是需要一定的时间和耐心的。

(3)大数据相关课程的学习

学完了编程语言之后,一般就可以进行大数据部分的课程学习了。大数据课程,包括大数据技术入门,海量数据高级分析语言,海量数据存储分布式存储,以及海量数据分析分布式计算等部分,Linux,Hadoop,Scala, HBase, Hive, Spark等专业课程。如果要完整的学习大数据的话,这些课程都是必不可少的。

(4)实战项目

学习完任何一门技术,最后的实战训练是最重要的,进行一些实际项目的操作练手,可以帮助我们更好的理解所学的内容,同时对于相关知识也能加强记忆,在今后的运用中,也可以更快的上手,对于相关知识该怎么用也有了经验。

5. 大数据可以解决的问题有哪些

大数据复可以做什制么?

获取大数据后,用这些数据做:数据采集、数据存储、数据清洗、数据分析、数据可视化

大数据的核心作用是数据价值化,简单说就是大数据让数据产生各种“价值”,这个数据价值化的过程就是大数据要做的主要事情。

简单的说,大数据可以做的是:记录一切、描述一切、预测一切

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。大数据的作用可以简单的分为给人类提供辅助服务,以及为智能体提供决策服务。

6. 对于大数据分析,你们有什么看法大数据分析的技术难点在哪里

我觉得大数据只是被炒作的一个概念,这并不是突然冒出来的一个新鲜失误。大数据最大的特点是大,其技术难点在于数据的处理,现在流行的hadoop分布式处理就是一个很好的大数据工具。

7. 大数据技术技术要解决的问题有哪些

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量

8. 大数据目前存在什么问题

数据存储问题:随着技术不断发展,数据量从TB上升至PB,EB量级,如果还用传统的数据存储方式,必将给大数据分析造成诸多不便,这就需要借助数据的动态处理技术,即随着数据的规律性变更和显示需求,对数据进行非定期的处理。同时,数量极大的数据不能直接使用传统的结构化数据库进行存储,人们需要探索一种适合大数据的数据储存模式,也是当下应该着力解决的一大难题。

分析资源调度问题:大数据产生的时间点,数据量都是很难计算的,这就是大数据的一大特点,不确定性。所以我们需要确立一种动态响应机制,对有限的计算、存储资源进行合理的配置及调度。另外,如何以最小的成本获得最理想的分析结果也是一个需要考虑的问题。

专业的分析工具:在发展数据分析技术的同时,传统的软件工具不再适用。目前人类科技尚不成熟,距离开发出能够满足大数据分析需求的通用软件还有一定距离。如若不能对这些问题做出处理,在不久的将来大数据的发展就会进入瓶颈,甚至有可能出现一段时间的滞留期,难以持续起到促进经济发展的作用。

关于大数据分析目前存在哪些问题,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

9. 大数据方面核心技术有哪些

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式回存储、数据库、答数据仓库、机器学习、并行计算、可视化等。

1、数据采集与预处理:

Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;

Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。

2、数据存储:

Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

3、数据清洗:MapRece作为Hadoop的查询引擎,用于大规模数据集的并行计算

4、数据查询分析:

Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。

Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。

10. 大数据常见问题有哪些

为什么大数据工程师被称为企业最需要的人才?


大数据是能为企业创造价值的源动力,大数据的应用能够为企业提升订单量、交易额、合理规划商业布局以及对用户进行精准营销、挖掘深层次用户,大数据工程师是最能为企业赚钱的人,最能帮助高层指定正确战略决策的人群,因此自然会收到企业的重视。


为什么大数据工程师一入职就能成为IT金领?


最主要的原因是大数据工程师可以为企业创造价值,而不是消耗企业的成本,再有就是大数据本身对人才技术层面和行业层面都有较高的要求,普通开发人员难于胜任,因此会造成入职即成为金领的现状。


为什么大数据也要学JAVA?


整个大数据体系是构建在java平台之上的,java作为大数据平台的基础架构支持,直接决定了大数据架构的稳定性、高效性、扩展性等等,因此只有掌握底层的java核心技术,才能够保证上层建筑的稳定运行。


为什么大数据也要学Python?


在一些数据分析领域,python提供了比较多的算法库实现,并且python由于其简单性,会加快开发速度,对很多常规的任务都能够使用python来完成,而且对于非计算机人员,python是比较容易接受和上手的语言,因此python在开发中也是较常见的语言。


关于大数据常见问题有哪些,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

阅读全文

与大数据的技术难题相关的资料

热点内容
冰封侠演员表 浏览:277
新妈妈韩国电影穿红色衣服女的是哪个 浏览:628
linux数据库用哪个 浏览:750
c盘注册文件放哪里 浏览:426
下载到平板上面的文件找不到了 浏览:842
成龙电影在线 浏览:777
好看手机电影网 浏览:426
四级打真军电影 浏览:370
pdf器转换后的文件保存在哪里 浏览:909
穿越民国写小说养家 浏览:790
韩国女钢琴老师和男孩 浏览:138
申请id代码什么意思啊 浏览:483
韩国小孩子和大人电影 浏览:472
台湾电影中字未删减版 浏览:996
庆余年无删节版全文下载 浏览:536
衰鬼撬墙脚女主角 浏览:671
英语影视APP 浏览:235
韩国伦理片手臂有纹身的男主角 浏览:85
迷你编程森林冒险最后一关如何过 浏览:427
合肥小学生哪里学编程好 浏览:465

友情链接