导航:首页 > 数据分析 > 高质量的数据一般包含哪些特征

高质量的数据一般包含哪些特征

发布时间:2025-01-19 00:02:41

A. 高质量的数据一般包括哪些指标特征

1)功能性:软件提供了用户所需要的功能。二级特性包括:适合性、准确性、互用性、安全性。对数据而言,个人觉得重要的应该属于准确性和安全性。


a.对于准确率,如果一句话概括就是,先数据要有,其次数据要全,后数据要准。对应的,就可以看到该大项下对应的小项:


数据要有->数据及时性:数据要按约定时间产出。


数据要全->数据完整性:数据不能少、不能缺。当然,也不能多。


数据要准->数据准确性:数值要准确。


这几个二级特性,可能很多同学的文章中都写过,也讨论过。这里只是从数据质量整体系统性上再将其阐述一遍。需要说明的一点是,很多文章中也写到了数据一致性这个特性。数据一致性这个概念很广,比如关系数据库中的外键一致性、CAP理论中的强弱一致性。个人认为,数据不一致终影响的还是数据的完整或者准确。如果业务上认为不一致性可以接受,那也不是问题。所以我更倾向于将数据一致性作为一种根因,而并不是质量模型的一个子项。


b.对于安全性,尤其是数据安全,命题也很大,这里不再赘述。但需要提的一点是,数据安全涉及到隐私或者差分攻击的预防,也可能是由业务同学考虑的范畴,所以在数据质量模型中不能忽视。


2)易用性:是指在指定条件下使用时,软件产品被理解、学习、使用和吸引用户的能力。对于数据来说,我认为数据的易用可以分为两方面:是否被理解,是否被需要。它更多的是和日常沟通、产品需求及规划相关。


是否被理解,意思是当前我们对数据的定义是否是行业认可的,是否存在团队与团队之间、用户与开发者之间理解的不一致。


是否被需要,意思是当前我们提供的数据,是否真的能够满足用户需要,数据的真正效果有没有达到。比如,我们给用户提供的是它自己品牌的数据,但用户可能更需要的是行业下的数据来做进一步的市场规划。


3)可靠性:在指定条件下使用时,软件产品维持规定的性能水平的能力。比如上游数据无法定时给出,依赖关系的强弱配置不正确,可能影响的就是数据无法定时产出。可靠性是一种根因,终影响的还是功能性。


4)效率:是指在规定条件下,相对于所用资源的数量,软件产品是否在规定时间内可提供适当的性能的能力。比如计算倾斜或者计算资源不足导致数据产不出来。效率也是一种根因,终影响的还是功能性。


5)可维护性:是指是在修改或者新增需求时,当前的开发架构是否足够灵活的支持,是开发阶段主要考虑的。比如在数仓开发中,当新上游到来时,如果从下到上全部采用烟囱式开发,那对新增的需求必定是不友好的。如果改为Hub或者集市模式,可能只需要开发接入数据的ETL代码,剩下的完全可以复用,就是提升可维护性的一种手段。


6)可移植性:是指软件产品从一种环境迁移到另一种环境的能力,也是开发阶段主要考虑的。服务或者网站的可移植性大家了解比较多,数据的可移植性是指什么?我个人认为可移植性强调的更多是跨技术平台的移植,而不是模块间的数据复用。在数据上可能就是数据直接从一个计算平台迁移到另一个计算平台,或者SQL代码从一个计算平台迁移到另一个计算平台。在可移植性方面,我还没有遇到导致质量问题的有说服力的案例,如果大家有相关的例子可以沟通。

阅读全文

与高质量的数据一般包含哪些特征相关的资料

热点内容
qq邮件抄送是什么意思 浏览:535
chrome56版本下载视频下载 浏览:13
漫游聊天记录在哪个文件夹 浏览:292
xcode静态库配置文件 浏览:353
java总类 浏览:784
儿童粤苗app接种怎么预约 浏览:830
javascript商品对比 浏览:377
ps精品课程复制文件 浏览:3
js如何弹出页面跳转页面的值 浏览:695
从群里下载文件怎么成了应用软件 浏览:329
文件夹只读怎么设置 浏览:483
视频文件备注 浏览:448
vue实现记住密码 浏览:791
tgp更新的文件在哪个文件夹里 浏览:654
有哪些好的网络规划的书 浏览:511
服务器读取文件路径 浏览:908
win10共享文件xp打不开 浏览:659
pe装机镜像文件路径没选择 浏览:96
打开电脑文件夹层叠太多路径太长 浏览:346
王者荣耀新版本狐狸 浏览:668

友情链接