编者按:
长亮科技在大数据领域始终保持足够的技术敏锐度,并积累了丰富的经验与资产。为此,我们组织了一个系列专文,分期发表,与您一起探索更适合当下行业发展的数据观,欢迎大家持续关注。
在前一篇文章《数据架构是管理数据的基础》中,我们回顾了数据管理领域具体实践历程与反思、数据架构的内涵以及应用架构、技术架构的关系,认为应该以企业级的架构视角来管理与使用数据。本文将进一步围绕企业数据模型核心,探讨如何实施有效的数据治理。
作者|长亮科技大数据研究院
内容|本篇共3427字,预计阅读时间12分钟
越来越多的企业认识到数据要素对企业的意义,意图从数据中挖掘出更多的业务价值,成百上千的数据库,数十万张表,就是企业的数字资产金矿。他们大量采购外部数据,在WAP与WEB中大量埋点跟踪用户行为,应采尽采,源源不断流入数据湖中。他们在使用数据时才意识到自己不知道有什么数据,该如何解读与使用数据,已知的数据大都存在需要治理的各种质量问题。
数据治理的定义是对数据资产的管理行使权威与控制(规划、监控和执行),对企业中使用的数据的可获得性、可使用性、完整性、一致性、可审计性和安全性进行全面管理。数据治理的目的是确保根据政策和最佳实践对数据正确地进行管理,数据治理的驱动力通常集中在降低风险与改进流程上(DAMA-DMBOK2)。
目前数据治理工作中的问题与误区
金融行业已经经历了比较久的数据治理历程,一些企业积累了丰富的数据治理经验,无论实施路径,解决方案,还是具体实施,如果没有抓住重点,治理工作很难取得实质改进效果。
目前数据治理工作或多或少存在一些问题,主要表现为:
重建章立制,而很少深入到实际业务与数据之中去发现与解决实际问题,脱离实际数据治理活动;
数据治理工作常被设计为一个或若干个项目,没有作为一项日常工作来做。早期有些企业轰轰烈烈启动了项目,制定了激进的计划,一旦遭遇挫折便偃旗息鼓;
数据的开发、管理与使用,没有章法,没有协作。如,盘点数据资产时,深度陷入字段级沼泽,迟迟得不到输出,而业务系统、数据分析应用一直在动态变化中,与数据治理各行其是,因此输出的数据资产清单新鲜度低,可用性差;
数据治理常常被当作重要而不紧急甚至是不重要、不紧急的工作,在面临紧急的业务需求时,常受所谓的敏捷开发干扰,一边治理问题,一边制造问题。
有些企业虽经过10多年的数据治理,但没有取得实质进展,仅是低水平的重复:数据资产快速膨胀,但高价值资产不多;日常工作效率不高,长期见效缓慢;系统建设周期性推倒重来,没有积累沉淀;数据建设、使用与治理的成本以及被监管部门的处罚长期居高不下。越来越多的数据管理部门认识到数据治理工作陷入了困境,步履维艰。
主要原因可以归纳为以下几个方面:
数据治理依据不充分:数据治理的立法与司法职能欠缺,数据治理者执法依据不完善,没有得到高层管理支持,没有执行力;
没有达成一致的目标:咨询可能提出了一个空洞的或不切实际的目标,开发部门以快速支持业务为目标,甚至有些部门以增加数据资产为目标,都不以定义与交付高质量资产为前提,没有认识到高质量的数据带来的价值;
路径不清晰:有些走过场的数据治理咨询项目交付了一条没有如何达到目标、没有实操的实施路径,甚至可能数据治理走出的第一步就错了;
职责不明确:数据生产者、消费者与管理者等干系人之间关于数据管理的认知存在巨大的差异,职责不明确,生产者不对自己生产的数据负责,治理部门对资产的膨胀缺少有效控制;
专业能力不足:受过数据管理专业培训的人员很少,合格数据治理专业人员更少,没有形成数据治理文化与社区;
缺乏有效的工具:缺少便于生产者、管理者和消费者之间沟通协作的工具来支持日常数据管理工作,以提升工作质量与效率。
充分利用企业数据模型驱动数据治理工作
良好的数据治理工作除了设立组织机构、建章立制之外,还需要设置和强制执行数据质量和数据架构标准,作为治理与行政的依据,确保数据在全企业范围内被准确、一致的定义、产生和使用。
许多企业的数据治理工作一般先制订数据标准,以数据标准为依据治理数据。数据标准仅是衡量数据质量的参考依据之一。
很多数据标准没有建立清晰的概念与逻辑关系,缺少理解标准目录的词汇与分类体系,使用者不清楚数据标准背后的逻辑,没有公共理解的基础,数据治理工作大多仅限于治理孤立的数据类型与码值;
以Excel、Word、PPT等文件形式展现的数据标准,所能表达的内容很有限,所能度量的数据质量维度也有限,数据的完整性与一致性不是其追求的目标,不能直接转化为可以实施的细节与执行的依据;
把实施宽泛的大而全的数据标准作为数据治理的切入点或启动项目不是一个好的选择。大而全的数据标准可能还没有实施就已经过时。
企业数据模型使数据治理真正成为现实。企业数据模型作为业务元数据,提供了数据的参考分类框架、关键实体与关系的定义,以及企业数据元素的标准定义,作为支持数据治理利益相关者协作、自助服务和数据资产探索等核心基础设施,为明确数据治理目标形成全面的认知与共识,为如何成功实施达到目标奠定基础。
对数据进行分类,是理解数据对数据进行治理的第一步。数据模型是一种本体论模型,它首先定义数据类别,使用既定的规则收集、管理这些不同类别数据。企业数据模型主题域清单表达企业最关键的领域——是最重要的分类方法之一。银行业数据标准的主题划分一般参照成熟的行业数据模型,每个主题之下的划分标准,各家银行有比较大的差异;
对数据有准确的定义与一致的理解,是衡量数据是否符合要求,进行数据管理活动的基础。许多数据问题是因为各种概念没有清晰的定义造成的;
数据之间的关系表达了业务规则,是企业数据实现与使用需要遵循执行的依据,但这一点普遍被忽视;
企业数据模型可以帮助数据管理人员识别和定位敏感数据,设计不同用户访问控制权限以强制执行机密性、完整性与合规,确保敏感数据得到保护;
企业数据模型帮助干系人站在企业的视角而不是局限于某个特定的系统或特定的数据集,可以发现影响全局的系统性问题,而不是一个局部范围,或者某个设计师的问题,可以有的放矢,重点解决系统性的问题,推动高效治理。
数据的定义、分类与关系的表达形式是ER模型图,模型的可视化带来友好性,可以面向各类人员,因此企业数据模型是数据管理必不可少的基础设施工具。
企业数据模型一般采用IDEF本体论建模图形化方法,易于理解,便于不同的用户讨论、辨析与定义数据表达的本体,使各类用户的认知达成一致;
基于企业数据模型规划数据治理工作,帮助制订如何达到目标的实施路径与长期渐进的计划。在模型体系指导下,自上而下从关键的主题开始(如跨各业务系统的参与人、机构、员工等,高级管理人员不被细节所困扰,实施人员更容易理解和消化重点)逐个主题、逐个关键实体稳步推进,自下而上从关键的属性开始治理(如证件类型、币种代码等);
基于企业数据模型安排责任分工与协作,支持日常数据管理工作。将明确的、透明的、正式的责任和行动应用于组织与流程实践,建立相互协作信任,保证每项数据治理任务都有明确的治理内容与RASCI责任人,确保它处于受控状态,提升数据治理实施的效率与绩效;
基于企业数据模型体系有效管理数据资产,指导、盘点数据资产。建立统一的数据资源目录统一管理维护,避免陷于治理沼泽,帮助数据治理人员获得数据资产状态信息,哪些方面存在问题以找出需要治理的有毒资产,哪些得到了增强和改进,作为最终用户跟踪、控制、判断是否符合数据治理要求的衡量参考标准,提高交互效率,减少沟通成本。
企业数据模型是企业绵延数十年的积累,覆盖业务经营、管理和决策数据需求,是数据领域长期发展的稳定基石,预防新数据问题的发生,支持可持续发展。
银行的业务发展变化是相对稳定的,业务逻辑很少发生颠覆性的改变,业务的变化同步更新到企业数据模型中。企业数据模型是新系统开发的关键输入与数据需求和建模的基线,指导和规划业务系统与分析系统的模型设计,可以预防数据问题的发生;
由于技术的快速发展以及企业应用架构的优化,许多银行业务应用系统每隔若干年都会大规模开发“新一代”。重用企业数据模型的组件,监控新系统的数据模型设计与数据分布,可以减少大量数据重构与迁移工作,提升数据的质量,保护历史投资,实现可持续发展;
数据治理不应仅专注于数据的治理而忽视数据分布流转的治理,不合理的应用架构与数据流转造成的数据问题往往是成片成面的,甚至是灾难性的。如一些业务系统数据经过数据中台或ODS复杂的整合,作为数据仓库模型的贴源区,不但拉长了加工路径,大大降低了时效性,由于数据中台或ODS的整合可能使源数据面目全非,导致数据仓库在设计模型时很难还原出业务源模型,这样混乱的数据流架构在原本数据质量不高的业务数据中制造了更多的垃圾。
写在最后
做正确的事,正确地做事。只有站在企业架构的高度,围绕企业数据模型核心,关注技术架构与应用架构对数据可能造成的负面影响,明确各自的职责,达成一致的目标,提升专业能力,精心设计专业科学的方法与清晰的实施路径,才能实施有效的数据治理,与应用架构、技术架构协同支持业务目标的实现!