SCI论文(www.lunwensci.com)
摘 要 :数字经济是推动社会经济发展的新动能,本文概述交通行业数据的特点和质量管理难点,引出数据质量在企业数 字化转型中的意义。介绍数据质量定义 , 提出数据质量管理 5 步流程 , 设计适应交通行业特点的数据质量评价指标体系及相应 的测量和评价方法。提出可行的数据质量管理系统设计思路,提出应用实践的建议。
关键词 :数字化转型,智慧交通,大数据,数据质量
Research and Design ofData Quality Management System inDigitalTransformation ofTransportation Enterprises
MAI Jiajian
(Dongguan Tong Co., Ltd., Dongguan Guangdong 523015)
【Abstract】:The digital economy is a new driving force for socio-economic development. This article outlines the characteristics and quality management difficulties of data in the transportation industry, and introduces the significance of data quality in enterprise digital transformation. Introduce the definition of data quality, propose a 5-step process for data quality management, design a data quality evaluation index system that adapts to the characteristics of the transportation industry, and corresponding measurement and evaluation methods. Propose feasible design ideas for data quality management systems and provide suggestions for practical applications.
【Key words】:digital transformation;smart transportation;big data;data quality
引言
当前交通企业在数字化转型方面取得了阶段性成 果,大部分企业已实现基本的信息化建设,部署了办公 自动化、企业管理系统乃至业务系统等信息化应用。部 分领先的企业正在进行更深入的数字化转型,通过云计 算、大数据、人工智能等技术,实现从传统企业向数字 化企业的转变。如通过智能高速公路运营平台实现实时 路况监测、通过智能公交系统实现智能排班和路线规划 等。然而,当前交通行业整体数字化水平仍处于起步阶 段,下一步的目标是激发数据要素,创新驱动潜能,优 化资源配置,改造提升传统动能,培育发展新动能,实 现转型升级和创新发展, 持续推动企业高质量发展 [1]。 鉴于数据在数字化转型当中的核心地位,数据质量的重 要性不言而喻。
数据质量受管理制度、开发流程、人员素质等软性 条件制约,并不是单纯的技术问题。同样地,数据质量 管理系统并不是单纯的信息化系统,而是包含管理流 程、评价方法和技术平台的有机整体。科学合理的管理 流程与评价方法是数据质量管理系统成功的基础。
1 数据质量管理流程设计
关于数据质量管理工作流程,麦吉利夫雷提出了数 据质量改进十步法 [2]。(1)定义业务需求和方法。(2) 分析信息环境。(3)评估数据质量。(4)评估业务影响。 (5)识别根本原因。(6)制定提升方案。(7)预防未来 数据错误。(8)发现及纠正当前数据错误。(9)实施监 督控制。(10)沟通行动和结果。
麦吉利夫雷的数据质量改进十步法为数据质量管理 提供了方法论指导,基本覆盖了数据质量改进的主要活动。不足之处在于,没有涵盖启动阶段的工作内容,如组 织架构安排、制度建设等 ;同时没有在过程中强调质量改 进的循环迭代,与数字化时代持续改进的要求不太吻合。 本文参照质量管理领域盛行的六西格玛(Six Sigma)方 法 [3] 设计数据质量管理过程,以定义(Define)、测量 (Measure)、 分 析(Analyze)、 改 善(Improve) 与 控制(Control)五个阶段为基础框架,结合企业数字 化管理实践,提出数据质量管理五阶段流程。
(1)初始化阶段。核心任务如下。1)建立数据质 量管理组织,确定数据质量管理部门以及权责范围。以 某大型交通集团为例,设置三级数据质量管理组织。第 一级为集团一级的数据质量管理委员会,主要提供政 策指导,制定管理规范 ;第二级是数据质量管理小组, 通常依托于集团信息中心,负责对集团范围内数据进 行质量校验、考核和评价 ;第三级是数据业主(Data Owner),由各个业务部门、分 / 子公司的数据管理团 队构成,对分管领域产生的数据质量负责,执行数据质 量持续改进任务。2)数据质量管理委员会制定数据质 量管理规范。数据质量管理规范是整个数据质量管理工 作的指导文件,包括数据质量管理的目标、原则、流 程、方法和工具等内容。通过制定规范,确保数据质量 管理工作有据可依,实现数据质量的持续改进。
(2)定义阶段。本阶段由数据质量管理小组执行以 下任务。1)分析数字化现状,制作数据资产清单。对 企业信息系统进行深入分析,梳理出各个系统中的数据 资产,并制作成数据资产清单。2)制定数据质量标准。 数据质量标准是评价数据质量的依据。标准制定需充分 考虑业务需求、数据特性等多方面因素,包括数据模型 标准、主数据和参考数据标准等。制定出的数据质量标 准应具有可操作性和可衡量性。3)建立数据质量评价 指标体系。指标体系应包括反映数据质量各个方面的指 标,如准确性、完整性、一致性等,为评价数据质量提 供依据。
(3)检测阶段。数据质量管理小组对数据进行采 集、测量、评价,生成数据质量报告。数据采集一般采 用统计抽样技术,确保数据的真实性、准确性和完整 性 ;数据测量和评价应依据制定的数据质量标准和评价 指标体系进行 ;数据质量报告通报数据业主,为质量分 析整改和绩效考核提供依据。
(4)分析阶段。数据业主在数据质量管理小组支持 下,采取量化工具,对数据质量问题进行溯源。如运用 描述性统计分析、相关性分析、帕累托图、鱼骨图等, 深挖导致数据质量问题的根本原因。
(5)改进阶段。数据业主采取手段对数据质量问题 进行整改。在发现数据质量问题后,需要制定相应的改 进措施,对问题进行整改。改进措施可以包括升级设 备、数据清洗、数据校验、数据治理等。
一般来说,阶段二到阶段五循环处于周期迭代当 中,如果组织数字化环境发生较大变更,则从阶段二开 始,反之从阶段三开始常态化循环。整个数据质量管理 过程形成一个闭环,即在不断地检测、分析和改进中, 实现数据质量的持续提升。
2 数据质量评价指标
2.1 数据质量评价指标体系设计
数据质量管理五阶段流程要求建立数据质量的评 价机制,其本质为确定数据质量评价的指标并进行测 量,将测量值与预设的数据标准进行比对,最后做出质 量水平的评价,故设计数据质量评价指标至关重要。此 领域的研究很多,学者和行业专家从不同的维度提出数 据质量的关注点。随着大数据技术的发展与普及,中外 学术界和业界的观点逐渐趋于一致,发布了一系列行 业最佳实践以及标准。DAMA International(国际数 据管理协会) [4] 总结了八大核心指标 ;国家标准《GB/ T25000.12— 2017 系统与软件工程系统与软件质量要求 和评价 (SQuaRE)》提出的数据质量模型按照固有的和 依赖系统的两个视角系统概述了 15 个质量特性 [5] ;国 家标准《GB/T 36344-2018 信息技术数据质量评价指 标》中则提出了数据质量评价指标框架,包含 6 项一级 指标、20 项二级指标,比较符合交通数据质量特点,在 工程实践中具有较高可操作性 [6]。本文以 GB/T 36344- 2018 指标体系为基础设计企业数据质量框架(如图 1 所示),共 6 项一级指标, 13 项二级指标。其中一级指 标列举如下。
(1)规范性。数据符合数据标准、数据模型、业务 规则、元数据或权威参考数据的程度。
(2)完整性。按照数据规则要求, 数据元素被赋数 的程度。
(3)准确性。数据准确表示其所描述的真实实体 (实际对象)真实值的程度。
(4)一致性。数据与其他特定上下文中使用的数据 无矛盾的程度。
(5)及时性。数据在时间变化中的正确程度。
(6)安全性。数据防止被泄密或破坏的保障程度。
2.2 数据质量测量与评价方法
定义数据质量评价指标以后,应定义有关量化计算 方法,设置质量基线 (baseline),为实际应用中的测量与评估提供依据。具体步骤和方法如下。
步骤一 :计算单项指标。举例,公交车驾驶员数 据表 T 中包含“性别”字段, 根据《GB/T 2261.1 - 2003 个人基本信息分类与代码 第 1 部分 :人的性别代 码》的规定,代码取值为“1- 男性”“2- 女性”。“代码 规范性”指标计算公式如式(1)所示 :
式中, I 为数据表 T 针对“性别”字段的“代码规 范性”指标得分 ;A 为符合代码赋值标准的数据项个数 ; B 为总数据项个数,即总记录数。
步骤二 :将单项指标值合成为总体指标值,即数据 质量得分。评价数据质量对象通常是数据表,需要在计算 单个指标的基础上, 将同一个数据表的指标得分合成为一 个总体指标,全面评估数据质量。常见的方法是加权平均 法, 根据各个指标的重要性和对总体目标的贡献赋予相应的权重,然后计算加权平均值,如式(2)所示 :
步骤三 :设置基准值,做出评价。对于单项或总体 指标值,需要通过对比预设的基准值,才可以对数据质 量做出客观评价。基准值的选取可以采用固定阈值法, 即基于历史经验值或业务目标设定,也可以采用动态阈 值法,监测指标值波动情况,将偏离均值 3 个标准差的情况视作质量异常。
3 企业数据质量管理系统设计
3.1 技术路线
数据质量管理系统是具有交叉属性的应用系统,既 是数据管理平台,又是分析平台,还是任务管理平台, 因此本系统的设计与实现综合应用了多种技术。(1)总 体架构上采取当前主流的 B/S 架构 ( 浏览器 / 服务器 )。 开发技术框架采用 Spring Boot+Vue,实现开发前后端 分离。(2)数据库选用 MySQL 集群,用于海量的结构 化数据,并提供支持 SQL92 标准的结构化数据检索查 询。(3)ETL 工具采用开源的 Kettle,允许用户通过 图形界面轻松构建和执行数据集成、转换和加载任务 ; 数据同步工具采用 DataX, 实现对 MySQL、Oracle、 HDFS、Hive、HBase 等各种异构数据源的数据采集。 (4)系统覆盖大部分数据质量管理工作流程,系统采用 Flowable 工作流引擎实现任务在用户间的分发、流转。
3.2 功能设计
3.2.1 数据管理子系统
数据管理子系统主要任务包括管理元数据信息、建 立并维护样本库以及异常样本库。
(1)元数据信息库。元数据是描述数据的数据, 提 供了关于数据的详细信息,如来源、格式、类型等。本库 维护了质量管理范围内所有数据的元数据,包括数据名称、 数据摘要、数据业主、数据分类、数据标识符等要素。
(2)样本库。样本库用于存放被测量与评价的数 据。为维护信息安全,数据质量检测评价任务不适合侵 入到源系统运行, 需要先用 DataX、Kettle 等 ETL 工 具将数据从各业主单位的数据源采集到样本库。该库中 的内容及数据结构与各业主单位的数据源保持一致,其 数据可以是全量汇聚数据,也可以是通过特定数据抽样规则获取的样本数据。为提高测量与评价效率,样本库 的数据量会比源库低一到两个数量级,用户可以根据业 务需求选择进行全量或一定比例的采样。
(3)异常样本库。样本库的数据经过测量后, 不符 合校验规则的原始数据及其元数据将被存储在异常样本 库。异常样本库为数据质量反馈提供信息来源和数据实 证,为分析整改提供依据。
3.2.2 标准管理子系统
标准管理子系统负责维护各项数据标准,包括但不 限于主数据标准、参考数据标准、数据元等。值得一提 的是,这些标准数据在系统中不是非结构化文档,而是 以结构化的数据表形式储存,以便于在校验作业中引用。
3.2.3 指标管理子系统
指标管理子系统负责管理数据质量评价指标,并将 指标实例化为数据校验规则。数据质量评价指标作为通 用准则,无法直接用于具体某个数据表的质量测量与评 价,需要跟具体数据表字段进行绑定,实例化为特定 的数据校验规则,再经测量子系统执行校验规则,才 能获得测量结果。例如,对于二级指标“非空性”,针 对停车场系统的数据表“车辆支付状态信息表”的“经 度”“纬度”两个字段,实例化为 R1、R2 两条校验规则。 对于复杂的指标,如“代码规范性”,不但要将指标跟 样本库中的数据表绑定,还需要跟标准管理子系统中的 标准代码表进行绑定,在校验作业执行的时候引用。
3.2.4 测量管理子系统
测量管理子系统负责定义、执行数据质量的校验任 务,本质上是离线作业调度中心。在作业定义阶段,数据 质量小组成员创建校验作业,并将若干条数据校验规则绑 定到作业,设置执行计划。在作业调度阶段,系统在指定 时间启动作业,根据数据校验规则对样本库中的数据进行 质量测量,并将不满足规则的记录存进异常样本库。
3.2.5 评价管理子系统
评价管理子系统负责对数据校验作业执行的数据质 量测量结果进行综合评分、输出数据质量报告。综合评 分模块负责将原始测量结果按照评估量化方法计算单个 数据质量评价指标得分,进而设置恰当权重,将单项指 标合成为总体指标。数据质量报告模块根据各项指标得 分数据,比对事先设定的质量基准,按照报告模板生成 数据质量报,对数据质量情况进行多维度评价。
3.2.6 质量分析子系统
质量分析子系统采用机器学习、数据可视化等手段 对数据质量测量评价的结果进行可视化展示、问题溯源 与决策支持。数据质量分析以被检测数据为基础,基于指标、规则和评价报告,针对公交、轨道、一卡通、高 速公路运营等单位的数据质量情况进行综合分析,目的 是更直观明了地反应现有数据质量问题和存在问题,支 持用户更多维度及直观掌握数据质量情况,辅助用户寻 找导致数据质量问题的根本原因,从而制定更有针对性 的改进措施。
3.2.7 质量工作台子系统
质量工作台子系统是本系统区别于普通数据治理系 统的特色功能,是联通质量管理各部门的桥梁。它既是 质量政策、质量报告的发布中心,又是质量问题整改任 务分配、流转执行的任务中心,还是上级部门对数据质 量专项任务进度与效果进行监督考核的督办中心。依托 本子系统的工作流机制,数据质量管理小组将数据质量 报告发放到数据业主,数据业主进行溯源、整改后在系 统提供整改成果,数据质量管理小组对成果进行验收, 从而完成数据质量改进的工作闭环。
4 结语
数据质量管理系统是数据质量改进工作的有力工 具,在实际应用中需要采取相适应的管理原则,才可以 取得最优效果。一是源头治理原则。尽量从业务系统数 据源开始进行数据质量评估与改进,避免质量问题扩散 到下游应用。二是全程闭环原则。数据质量测量和评价 不是质量管理工作的终点,数据管理小组、数据业主应 依托系统,对发现的问题进行分析、溯源、整改,在迭 代中提升质量。三是考核监督原则。把各部门、分 / 子 公司所属的数据质量得分纳入企业集团数字化工作绩效 考核, 各部门、分 / 子公司相应建立对承建单位、供应 商的考核机制,层层传导压力,保证改进工作有效落实。
参考文献
[1] 陈云腾.基于中台架构的国有交通投资集团数字化转型研究 [J].科学决策,2023(1):78-103.
[2] 麦吉利夫雷.数据质量程实践: 获取高质量数据和可信信息 的十大步骤[M].刁兴春,译.北京:电子工业出版社,2010.
[3] 托马斯•派兹德克.绿带、黑带和各级经理完全指南[M].王 其荣,译.北京:清华大学出版社,2018.
[4] DAMA国际著.DAMA数据管理知识体系指南(原书第2版) [M].DAMA中国分会翻译组,译.北京:机械工业出版社,2020.
[5] GB/T25000.12—2017.系统与软件工程 系统与软件质量要 求和评价(SQuaRE)第12部分:数据质量模型[S].北京:中国标准 出版社,2017.
[6] GB/T36344—2018.信息技术 数据质量评价指标[S].北京: 中国标准出版社,2018.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/77156.html