导航:首页 > 数据分析 > 高质量的数据一般包含哪些特征

高质量的数据一般包含哪些特征

发布时间:2025-01-19 00:02:41

A. 高质量的数据一般包括哪些指标特征

1)功能性:软件提供了用户所需要的功能。二级特性包括:适合性、准确性、互用性、安全性。对数据而言,个人觉得重要的应该属于准确性和安全性。


a.对于准确率,如果一句话概括就是,先数据要有,其次数据要全,后数据要准。对应的,就可以看到该大项下对应的小项:


数据要有->数据及时性:数据要按约定时间产出。


数据要全->数据完整性:数据不能少、不能缺。当然,也不能多。


数据要准->数据准确性:数值要准确。


这几个二级特性,可能很多同学的文章中都写过,也讨论过。这里只是从数据质量整体系统性上再将其阐述一遍。需要说明的一点是,很多文章中也写到了数据一致性这个特性。数据一致性这个概念很广,比如关系数据库中的外键一致性、CAP理论中的强弱一致性。个人认为,数据不一致终影响的还是数据的完整或者准确。如果业务上认为不一致性可以接受,那也不是问题。所以我更倾向于将数据一致性作为一种根因,而并不是质量模型的一个子项。


b.对于安全性,尤其是数据安全,命题也很大,这里不再赘述。但需要提的一点是,数据安全涉及到隐私或者差分攻击的预防,也可能是由业务同学考虑的范畴,所以在数据质量模型中不能忽视。


2)易用性:是指在指定条件下使用时,软件产品被理解、学习、使用和吸引用户的能力。对于数据来说,我认为数据的易用可以分为两方面:是否被理解,是否被需要。它更多的是和日常沟通、产品需求及规划相关。


是否被理解,意思是当前我们对数据的定义是否是行业认可的,是否存在团队与团队之间、用户与开发者之间理解的不一致。


是否被需要,意思是当前我们提供的数据,是否真的能够满足用户需要,数据的真正效果有没有达到。比如,我们给用户提供的是它自己品牌的数据,但用户可能更需要的是行业下的数据来做进一步的市场规划。


3)可靠性:在指定条件下使用时,软件产品维持规定的性能水平的能力。比如上游数据无法定时给出,依赖关系的强弱配置不正确,可能影响的就是数据无法定时产出。可靠性是一种根因,终影响的还是功能性。


4)效率:是指在规定条件下,相对于所用资源的数量,软件产品是否在规定时间内可提供适当的性能的能力。比如计算倾斜或者计算资源不足导致数据产不出来。效率也是一种根因,终影响的还是功能性。


5)可维护性:是指是在修改或者新增需求时,当前的开发架构是否足够灵活的支持,是开发阶段主要考虑的。比如在数仓开发中,当新上游到来时,如果从下到上全部采用烟囱式开发,那对新增的需求必定是不友好的。如果改为Hub或者集市模式,可能只需要开发接入数据的ETL代码,剩下的完全可以复用,就是提升可维护性的一种手段。


6)可移植性:是指软件产品从一种环境迁移到另一种环境的能力,也是开发阶段主要考虑的。服务或者网站的可移植性大家了解比较多,数据的可移植性是指什么?我个人认为可移植性强调的更多是跨技术平台的移植,而不是模块间的数据复用。在数据上可能就是数据直接从一个计算平台迁移到另一个计算平台,或者SQL代码从一个计算平台迁移到另一个计算平台。在可移植性方面,我还没有遇到导致质量问题的有说服力的案例,如果大家有相关的例子可以沟通。

阅读全文

与高质量的数据一般包含哪些特征相关的资料

热点内容
苹果手机屏幕6个密码 浏览:882
如何用手机编程小游戏 浏览:531
输入你的小程序appid 浏览:276
ps文件暂存盘已满 浏览:230
微信红包留言可以语音 浏览:192
c语言画直线代码 浏览:107
华为g7文件管理在哪里 浏览:74
word2003修改批注人 浏览:445
网络的规模是如何扩大的 浏览:381
资料文件夹单价多少 浏览:813
newfilejava 浏览:681
怎么卸载天猫精灵里的app 浏览:544
苹果电脑win7修复漏洞后内存 浏览:850
怎么压缩几个文件夹 浏览:30
usb痕迹深度清理工具 浏览:614
有信账号密码分钟享用 浏览:176
选定的外部参照参照了早期的图形文件格式 浏览:323
苹果官方网站是什么 浏览:727
linux共享文件夹看不到文件 浏览:56
wos的数据分析在哪里 浏览:338

友情链接