什么是数据标准
数据标准这个词,国内从21世纪初开始提出,最早是在银行业的数据治理中开始使用的。数据标准工作一直是数据治理中重要的基础性内容,但是对于数据标准,不同的人却有不同的看法:有人认为,数据标准极其重要,只要制定好了数据标准,所有数据相关的工作依标进行,数据治理大部分目标就水到渠成了;也有人认为,数据标准几乎没什么用,做了大量的梳理,建设了一整套全面的标准,最后还是束之高阁,被人遗忘,几乎没有发挥作用。
其实这两种看法都是片面的。实际上,数据标准工作是一项复杂且涉及面广的系统性、长期性的工作。它虽然不能快速发挥作用,迅速解决掉数据治理中的大部分问题,但也不是完全没有作用,最后只剩下一堆文档——如果数据标准工作的结果真是如此,那只能说明这项工作没有做好,没有落到实处。
首先要厘清数据标准的定义。对于何为数据标准,各相关组织并没有达成共识。结合各家对数据标准的阐述,从数据治理的角度出发,尝试着给数据标准下一个定义:数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义;数据标准的目的是使组织内外部使用和交换的数据是一致的、准确的
举例来说,对于一个企业来说,营销、财务、总经理办公室等不同的部门可能都会产出“利润率”这个指标,所以需要统一“利润率”这个指标标准,如果确实有多个不同口径的“利润率”需要同时存在,则必须用不同的限定词把它们区分开,如销售利润率、成本利润率、产值利润率、资本金利润率、人均利润率等。对于每一种指标,都必须明确阐述其唯一的业务含义,明确其计算公式、数据来源、限定范围(如时间范围、业务范围),并确保这种指标标准是可供业务部门和技术部门参考,有专人维护的。
数据标准如何制定
数据标准来源非常丰富,有外部的监管要求、行业的通用标准、专家的实践经验,同时也必须考虑到企业内部数据的实际情况。通过资料收集、调研访谈、分析评估等工作流程,梳理其中的业务指标、数据项、代码等,最终形成并制定适用于组织的数据标准,并对标准进行发布和公示。数据标准的制定流程如图所示。
需要注意的是,由于组织内业务的复杂性,将收集到的所有参考标准都纳入数据标准管理中进行管理是没有必要的,数据治理的指导者必须清楚哪些标准才适用于当前组织内业务和数据的实际情况。
数据标准分类
按照DCMM的分类,数据标准可分为以下几类:
业务术语标准 参考数据和主数据标准 数据元标准 指标数据标准
业务术语是被批准、管理的业务概念定义的描述,需要通过流程来定义组 织如何创建、审批、修改和发布统一的业务术语,进而推动数据的共享和在组织内部的应用,如银行的业务术语贷款展期、收息、兑付等。
参考数据是用于将其他数据进行分类或目录整编的数据,可以简单理解为是数据字典,是数据可能的取值范围,比如我国的省份,它总是在一个固定的 可选范围之内,又如性别的分类和取值范围、货币币种的分类和取值范围。主数据是组织中需要跨系统、跨部门共享的核心业务实体数据。主数据因为其重 要价值,被喻为企业的黄金数据记录,如多个系统共享的客户、商品等核心业务实体数据。
数据元是用一组属性描述其定义、标识、表示和允许值的数据单元,是描述数据的最基本单元。数据元由3部分组成:对象类、特性、表示值域和数据 类型的组合。
指标数据是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、指标解释、时间限定、其他条件限定、指标数值等组成,如企业的人均利润率、季度离职率等。