第 1页 共 2页
计算机世界/2005年/9月/5日/第 C11版
应用构建
如何提升数据仓库的数据质量
黄平
随着国内电信市场竞争的日趋激烈,各大电信运营商纷纷建立了各自的数据仓库或经营分析
系统,这些系统功能强大,让用户眼前一亮,但是随之而来的问题就是,系统提供的这些数据准
确吗?这种怀疑并非没有道理,很多时候,数据仓库生成的数据和已有生产系统进行数据核对时
存在一定的差距,有些指标甚至相差甚远,用户对数据仓库的数据可用性心存疑虑,数据质量的
问题困扰着数据仓库的进一步应用和发展。
数据质量不高,有人简单地以为数据是错误的,数据不可用。其实数据质量问题比较复杂,
不能用简单的对错来区分。下面是数据质量问题所
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
现出来的几种典型情况:
1. 数据不完整。这种情况比较多,例如记录的缺失、字段信息的缺失、记录不完整等。最明
显的例子就是用户入网登记的证件号码没有输入到系统。
2. 数据不一致。这种情况主要指由于系统之间或者功能模块之间记录不一致、编码不一致、
引用不一致等。例如在 97 系统、计费系统、网管系统中由于业务受理处理
流程
快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计
不
规范
编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载
,或者系
统之间同步时间不一致导致了不同系统中用户记录数不一致。
3.数据有错误。这种情况主要是指数据中存在各种不合法的情况,例如数据类型错误、数据
范围越界、数据违反业务规则等。
除了第三种情况是明显的数据错误之外,其他两种都不能简单地认为是错误,这两种情况在
数据仓库建设中是比较普遍遇到的,关键是对数据质量的状况有深入的认识,在应用上加以注意。
下面从数据仓库的各个主要关键点来剖析数据质量产生的原因。
数据源 不可否认,数据质量问题有些是从生产系统带入到数据仓库的。在生产系统长期运
作的过程中,很可能会引入一些噪音数据,直到有一天被数据仓库采集,并且被加工使用得出意
外的结果之后,才发现有这个问题存在,这种情况在生产系统中并不少见。
ETL 在 ETL过程中,有相当多的地方可能会产生数据质量问题:
● 数据抽取:从源系统中抽取数据,一般要编制数据抽取代码或者借助一些工具配置进行
数据抽取,在这个过程,可能会出现编码错误或者工具配置不当,导致原始数据正确而抽取出来
的数据不正确。
● 数据转换:数据抽取完成之后,如果数据形式不一样还需要做形式的一致化处理,一致
化处理如果不当就会引入数据质量问题。
● 数据加载:数据转换完成之后要进行数据加载,在系统运作时可能会出现重复加载或者
加载失败的情况,会导致数据量异常。
数据应用 在数据经过 ETL 之后,进入系统的应该是规范化的数据,用户一般是通过应用界
面来访问数据,如果应用访问逻辑有误,输出的结果也会有问题,最常见的就是多表连接时,关
联条件不正确,导致结果也不对。
在了解了数据质量的分类情况和可能产生数据质量问题的各个关键点和原因后,下一步是针
对不同情况采取不同的措施,从而提升数据质量。在决定提升数据质量之前,首先要明确两个原
则:
● 数据质量的提高和投入的成本是相关的。数据质量越高,所投入的人力物力成本就越高,
因此数据质量提升工作应该量力而行。
● 数据质量的高低和应用的需求是相关的。不是所有应用所需要的数据质量
要求
对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗
都一样,
第 2页 共 2页
有些应用仅仅用于分析趋势的,要求可以不那么严格,但是对于严格统计意义上的信息,要求就
比较高。
数据仓库中数据质量提升不仅仅是数据仓库本身的事情,还涉及到各个源系统本身的数据质
量改进,需要从源头上杜绝一些问题数据,同时还涉及到数据仓库应用的数据质量改进。下面从
产生数据质量的各个环节,考虑数据质量改善
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
。
1. 数据源
● 规范生产系统中的数据录入。对于新录入到系统中的数据需要严格审查,从源头上保障
数据质量。
● 清理历史数据:对于历史数据需要定期进行清理,对于缺失遗漏数据进行补充,对于错
误数据进行改正,对于冗余数据予以清除,从而提高历史数据的准确性。
2. ETL
● 数据抽取程序严格审核。抽取的结果要和源系统的数据定期核对,数据抽取逻辑和限制
条件要注明。
● 及时监控源系统的变更。一旦源系统发生变化,提供告警机制,对数据抽取代码和配置
信息进行及时更新,以保障后续工作正常进行。
● 确定采信数据源。当同类的数据从多个不同数据源采集到时,需要确定采信规则,哪些
数据是可信的,哪些数据不可信,在一致性检查中非常重要。
● 建立故障检测机制。由于故障发生是不可避免的,因此需要建立一套故障检测机制,定
期对系统进行扫描,以及时发现故障的发生,进而主动采取控制措施,保证系统 ETL的正常运行。
● 建立数据审核机制。在经过 ETL 处理之后,需要建立一个可追溯的控制点,这样可以层
层对数据进行审核。
3. 数据应用
● 数据应用程序严格审核。不同应用进行交叉核对,检查数据结果是否正常。
● 应用结果核对。把应用输出的结果和同类系统提供的报表数据进行核对,检查差异率。
总体而言,数据质量管理是一个复杂艰苦的工作,需要持续不断地进行,才能有效地改善数
据质量。只有有效的数据管理才能保证高质量的数据,高质量的数据才能支撑强大的数据仓库应
用,才能保证更多的应用成果。