石秀芳 柳明军 毕小强 刘妤 孔群 张成爽
(1.山东省信息技术产业发展研究院,山东济南 250014;
2.山东赛宝电子信息产品监督检测研究院,山东济南 250014;
3.山东省科技服务发展推进中心,山东济南 250101)
我国的数字经济建设正式启动开始于2016年G20峰会倡议。2017年,习近平总书记在中共中央政治局的集体学习中进一步强调了数据的关键作用。2019年,党的十九届四中全会指出,健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。2020年4月,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据进一步提升为生产要素之一。随着数据入表工作的不断推进,数据要素被视为推动数字经济发展的“催化剂”,对价值创新和生产力提升产生了广泛影响。2020年8月,国务院国资委发布的《关于加快推进国有企业数字化转型工作的通知》对国有企业的数据治理也提出了明确的要求,拉开了企业数字要素治理的序幕。对于制造业企业来说,数据要素治理已逐步成为数字化转型的关键要素之一。
随着大数据技术的不断发展和制造业企业中数据体量的与日俱增,如何进行有效管理和利用数据的研究需求也在不断增加。企业拥有的数据资源需要通过数据治理,才能够将数据要素转化为生产要素,成为数据资产。近年来,随着数据管理能力成熟度评估(DCMM)在制造业的推广,不少企业意识到数据要素治理的重要性,这也标志着企业层面已经由理论研究付诸实践行动,开始建立数据治理体系,并采取实际行动来提升数据治理能力。
在政策层面,我国多部门、多省市地区已经制定了数据要素治理的法规和标准,例如数据保护法、数据安全法、数据质量标准等。新的政策问题和挑战也在不断出现,例如数据归属权问题、如何保护数据隐私、如何确保数据安全、如何处理跨境数据流等。
在理论研究层面,国内外不少机构从不同层面提出过一些数据要素治理的基本框架和原则,包括数据质量管理、数据安全和隐私、数据生命周期管理等方面。但是,随着企业侧数据环境的不断变化和复杂化,新的问题和挑战也在不断出现,例如,如何处理庞大的非结构化数据、实时数据的管理效率、大规模多源头数据一致性问题等。
在实践层面,许多制造业企业已经开始探索数据要素治理的路径,并且取得了显著的效果和影响。但是,数据要素治理的实践还面临许多挑战。例如,如何制定和实施有效的数据要素治理策略、如何评估和改进数据要素治理的效果、如何保证数据质量和可用性、如何处理数据要素治理的技术和法律问题等。
在技术层面,已经有数据服务商开发了大量多场景下的数据要素治理工具和技术,并且已实现商业化应用。例如,数据质量监测工具、数据安全防护工具、数据一致性检查工具和数据生命周期管理跟踪工具等。但是,数据治理领域不断涌现出新的应用需求,而技术工具的升级迭代速度无法及时跟上新需求的变化。
总的来说,数据要素治理领域理论和实践已经取得了一定的成绩,治理水平也在不断跃升。但是,在制造业企业数字化转型的大背景下,数据要素治理仍然面临许多新问题和新挑战,需要持续地进行研究和改进,以应对不断变化和复杂化的数据环境。
数据要素治理是制造业企业实施数据管理的基础,主要目标是保证数据的质量稳定、统一、安全和可获取性。在充分保障底层数据安全、可靠、可用的前提下,才能进一步发挥数据作为企业核心驱动要素对业务发展的持续驱动作用[1]。本文基于大中型制造业领域的数据要素治理现状,梳理了当前数据要素治理的短板与瓶颈,并参考数据管理能力成熟度评估框架和数据管理协会(DAMA)对数据要素治理的框架,提出符合企业未来治理方向的制造业企业数据要素治理体系,如图1所示。
图1 制造业企业数据要素治理体系
制造业数据要素治理体系主要包括以下7个治理域。
(1)治理策略和原则是企业数据治理的顶层规划,需要在企业管理层面定义自身数据要素治理的目标、策略和原则,通常需要包括数据的范围、所有权、责任、透明度、一致性、可用性等。
(2)数据质量管理是企业数据要素治理的核心部分,并且受多方面因素影响。比如源头采集数据、多系统处理数据、数据集成共享调用、非结构化数据识别等都可能对数据质量产生较大影响。因此,需要制定和实施数据质量管理的立体化策略和深度流程管理。
(3)数据一致性是确保数据在不同系统和平台中保持一致的状态,需要通过数据结构化、标准化、集成共享、转换调用等方法来实现。
(4)数据安全和隐私是数据治理的重要部分,涉及数据的保护、访问控制、隐私保护等,需要制定和实施数据安全和隐私的策略和流程,例如数据加密、访问控制、隐私保护等。
(5)数据可用性是确保数据可以被有效地存储、检索和使用,需要通过数据有效备份和快速恢复以及数据共享等多种方法来保障。
(6)数据生命周期管理是管理数据从数据的生成创建到应用管理再到归档销毁的整个过程。每个过程都需要根据数据阶段特性制定适用的管理原则和重点,才能保障数据全周期的合理化管理。
(7)治理度量和评估是评价数据治理效果的重要环节,也是完成数据要素治理闭环管理的关键一步,需要定义和收集数据治理的度量指标,例如数据质量指标、数据一致性指标、数据可用性等量化指标等,并通过定期的评估和审计来改进数据治理的效果。
(一)治理策略和原则
数据治理是指在组织内部建立一套系统化、组织化的方法来管理和优化数据资产,包括一系列策略、规则、程序、工具和角色,以提高数据的质量、安全性、一致性和合规性等。一些常见的数据治理策略和原则如下。
(1)数据所有权:每个数据元素都应有一个明确的所有者或责任人,负责管理和维护该数据元素。
(2)数据一致性:应确保在组织内部和组织之间,对同一数据元素的定义、格式和解释是一致的。
(3)数据合规:应遵守相关的法律法规、标准和契约,以满足监管要求和社会责任。
(4)数据价值:应优化数据的收集、存储、使用和共享,以提高数据的价值和效益。
(5)数据文化:应培养组织和员工的数据意识、数据素养和数据行为,以形成良好的数据文化。
实施数据治理需要组织的领导支持,需要跨部门的协作参与,需要专业的技术支持,需要持续的改进过程。只有这样,才能真正实现数据治理的目标,提高组织的数据能力,支持组织的业务战略。
(二)数据质量管理
数据质量管理是数据治理的关键部分。数据质量管理的主要步骤和方法包括以下几点。
(1)数据质量策略和规划:首先,需要明确数据质量管理的目标和策略,以及如何实现这些目标。这可能包括定义数据质量的标准和指标,以及如何收集和分析数据质量的信息。
(2)数据质量评估:通过收集和分析数据质量的指标来衡量、监测数据质量的过程。
(3)数据清洗:数据清洗主要涉及识别并修正数据中的错误和不一致性,这是比较重要的步骤,只有高质量的数据才能帮助企业做出准确的决策和预测。数据清洗可以采用多种方法,如数据校验、数据转换和数据匹配等。
(4)数据质量改进:数据质量改进是通过改变数据的生成和处理过程来提高数据质量。这可能包括改进数据的收集和输入过程,改进数据的处理和存储过程,以及改进数据的使用和维护过程[2]。
数据质量管理是一个持续提升的过程,需要持续地评估和改进。有效的数据质量管理可以提高数据的可用性和价值,支持更好的决策和操作。
(三)数据一致性
数据一致性是指在一个数据系统中,数据的各个存储之间保持相似的状态。在分布式系统中,数据一致性是一个核心的问题,因为数据的副本可能被同时在多个地点修改,这就需要一种机制来保证所有的副本都能反映出最新的修改。数据一致性可以从多个维度来考虑。
(1)强一致性是最可靠的一种模型,需要消耗大量资源进行保障。在数据进行任何更新操作后,所有的后续操作都能同步采用最新值。这种模型在理论上十分理想,但在实际的分布式系统中往往很难实现,因为需要在所有的数据副本之间进行频繁的通信和同步更新[3]。
(2)弱一致性模型无法保证所有的数据副本在同一调用时都能读取最新值。这种模型在实际的分布式系统中较为常见,因为它可以减少系统的通信开销,提高系统的性能。然而,这也给弱一致性模型也带来了新的挑战,例如如何处理数据的冲突和不一致。
(3)实际的分布式系统应用中最常见的是最终一致性模型。系统不是保证所有的数据副本都可以实时响应最新的更新,但是需要在所有操作完成以后,再进行所有的分布式数据的同步。例如,亚马逊的Dynamo系统就采用了最终一致性模型进行管理。
数据一致性的保证须依赖一系列的技术和策略,例如分布式锁、版本控制、冲突解决算法等。在实际的系统设计中,需要根据系统的需求和特性,选择合适的一致性模型和实现策略。
(四)数据可用性
数据可用性是数据管理的一个重要方面,它指的是数据是否可以被有效地存储、检索和使用。主要包括以下几个方面。
(1)数据存储和备份:主要关注数据物理存储是否安全,备份数据是否有效,保证数据的物理安全不被破坏。数据备份至少应该涵盖全量备份、增量备份以及异机异地备份等。
(2)数据恢复:在数据被破坏无法使用的情况下,须能够将备份数据快速地恢复至正式系统中,以保证数据的可用性。
(3)数据访问:数据须能够被用户和应用程序方便地访问。这可能涉及数据的索引、查询优化、数据接口等。
(4)数据共享:在组织内部,不同的部门和角色可能需要访问和使用同样的数据。
(五)数据安全和隐私
数据安全和隐私是数据存储、处理和传输的重要保障。需要配置的关键数据安全措施有以下几点。
(1)访问控制:这是防止未经授权访问的主要方法。访问控制可能涉及用户名和密码认证、双因素认证或多因素认证、角色基础的访问控制(RBAC)等。
(2)数据加密:数据加密是将数据转换为无法被人理解的形式,只有拥有正确密钥的人才能解密并访问数据。数据应在存储时(静态加密)以及在传输过程中(传输加密)进行加密。
(3)网络安全:网络安全是防止网络攻击的重要保障,如部署安装防火墙、入侵检测系统、堡垒机、密码机、上网行为管理和入侵预防系统等安全防护系统。
(4)数据隐私:数据隐私是保护个人数据不被未经授权使用的实践,涉及数据加密、数据脱敏、数据伪装、权限最小化等。
(5)安全审计和监控:定期进行安全审计并持续监控系统和网络活动,可以帮助检测和防止安全威胁。
(6)员工培训和意识:员工是数据安全的重要环节。定期的安全培训和意识教育可以帮助员工理解和遵守安全政策和程序,防止人为错误和内部威胁。
(六)数据生命周期管理
数据生命周期管理的核心目的是确保数据的可用性、完整性、安全性和合规性,同时提升数据的价值和降低数据的管理成本。数据生命周期管理的主要阶段如下。
(1)数据创建是数据生命周期的开始,包括数据的生成、收集和输入等活动。
(2)数据存储是保持数据可用的关键阶段,包括数据的保存、备份和复制等活动。在这个阶段,需要考虑数据的存储位置、存储介质、存储格式、存储期限等因素。
(3)数据使用是实现数据价值的主要阶段,包括数据的查询、分析、处理和利用等活动。在这个阶段,需要考虑数据的访问权限、访问频率、访问效率等因素。
(4)数据流通是扩大数据价值的重要阶段,包括数据的交换、传输和发布等活动。在这个阶段,需要考虑数据的共享方式、共享范围、共享安全等因素。
(5)数据归档是延长数据价值的必要阶段,包括数据的迁移、封存和检索等活动。在这个阶段,需要考虑数据的归档策略、归档条件、归档效果等因素[4]。
(6)数据销毁是结束数据管理的最后一步,包括数据的清除和销毁等活动。在这个阶段,需要考虑数据的销毁方法、销毁时间、销毁确认等因素。
此外,数据生命周期管理还需要进行数据审计和数据监控,以跟踪数据的状态和行为,评估数据的效果和风险。
(七)数据治理的度量评估指标
数据治理的度量评估指标是评估数据治理效果的关键,可以帮助企业理解数据治理的当前状况,识别存在的问题,以及监控改进的效果[5],包括以下度量指标。
(1)数据治理策略和原则的指标主要是衡量企业用来构建数据治理的方向和治理的原则。例如,是否具备数据治理规划、数据治理原则是否清晰、数据治理的责权划分是否明确等。
(2)数据质量指标用来衡量数据的准确性、一致性和可信度等。例如,数据标准统一性、数据查询响应时间、数据分析准确率、数据驱动决策的成功率、数据过时率和数据可信度评分等。
(3)数据一致性指标用来衡量数据统一可用的情况。例如,缺失数据的比例、误差率或错误比例、重复数据比例等。
(4)数据可用性主要衡量数据是否可靠以及实时服务的可靠性等。例如,可用性百分比可以用于度量数据可用时间和系统停机时间的比率、数据恢复时间和数据恢复点目标(RTO和RPO)、数据访问量、数据访问速度和数据访问错误率等指标。
(5)数据安全和隐私指标衡量数据的保密性和隐私性。例如,数据泄露事件数量、数据篡改事件数量、数据丢失事件数量、数据违规事件数量、数据合规性评分等。
(6)数据生命周期管理指标主要衡量数据从产生到使用再到归档销毁的管理水平。例如,数据产生频率、数据存储空间利用率、数据交互共享调用频次、数据销毁合规性等。
除了以上基本的数据治理度量指标,其他指标需要根据企业的具体情况和目标来确定。
本文提出的制造业企业数据要素治理体系研究了未来制造业数据治理的方向和七个重点治理域。依据此框架,本文选取了某钢铁公司并对其数据进行治理,取得了较好的治理效果,达到了预期目标。
某钢铁公司是一家大型的民营钢铁联合企业,其业务领域包括炼铁、炼钢、轧钢、焦化、化工、物流、机械制造、科研和资本运作等多个方面。随着信息化建设的不断推进,公司内部拥有各类信息化系统上百余套,集成度不高,存在“数据孤岛”。在集团层面,尚未建立统一的数据要素治理的目标原则和策略,数据管理的相应制度也尚未健全。数据质量、一致性、可用性、安全性以及生命周期都以散点管理方式散落在各个系统运维过程中。数据运维基本以“救火”状态为主,缺乏统一的数据治理体系。
2022年开始,集团统一开展数据治理工作,建立起一套行之有效的数据治理体系。其数据要素治理框架如图2所示。
图2 某钢铁企业数据要素治理框架
公司采取了“顶层设计”与“局部实施”相互结合的策略,动员相关各方一起进行数据管理工作。鼓励数据管理活动直接在一线信息系统和数据仓库中进行,并在系统的全生命周期中嵌入,共同解决数据管理过程中存在的问题。从源头提升数据资源的质量,让所有参与方共享高质量的数据治理成果,打造一种“标准化、要素化、资产化”的新数据要素治理模式。主要工作如下。
(1)明确数据治理规划与原则。公司建立了一个跨部门的数据要素治理组织,包括数据所有者、数据管理员和数据用户,负责制定和执行数据要素治理策略和程序。在此基础上,牵头制定《集团数据战略规划》,从构建数据治理体系、改善数据质量、加强数据共享、促进业务协同、推动业务创新、支撑智能决策等方面明确了公司的数据战略,通过大力推进工业互联网建设实现从传统制造向数字化制造的转型,计划利用5年左右使公司数据管理水平达到行业领先。
(2)制定公司级的数据质量标准。公司定义了数据元素的标准,编制形成统一的数据元素字典,供全公司使用。构建公司级数据质量评估指标体系,设计数据质量评估分析报告,明确各专业数据质量基线阈值,制定各专业数据质量目标和提升计划,数据质量日常管理,定期发布数据质量评估报告。
(3)数据一致性治理。数据一致性是数据治理体系中的核心任务,为构建企业数据架构体系提供基础,并且是确保数据可用性的关键。企业开始创建数据资源目录,对公司的数据资源进行层级划分,同时开展数据标准、数据模型、元数据、指标数据、数据源和数据集成管理等相关工作。
(4)数据可用性。建立数据仓库,并且逐步实现数据库层级的国产替代。服务节点为平台的服务运行容器,用于运行元数据采集、数据脱敏、数据质量检查等服务。治理平台提供工具可视化配置生成运行节点,支持星形、树形、网状的集群部署方式,满足跨网段实时、批量的元数据采集,支持跨单位、跨区域的业务联动。另一方面,通过建立数据模型提高数据可用性:逻辑模型涉及所有业务概念命名和数据规则的统一定义;
物理模型是集团公司统建信息系统的物理模型快照,并形成统一的数据导图。
(5)实施数据安全管理。公司组织实施了数据安全管理提升工作,包括数据的访问控制、数据的加密、数据的备份和恢复等,保护数据元素的安全和隐私。同时,开展安全应用授权管理和安全策略管理。实施安全应用授权管理流程后,各类用户想使用资源目录中的各种数据时,通过对应的审批流程就可达到使用数据的目的;
安全策略管理实现了数据在系统交互时候的控制措施管理,保证了数据共享与安全的平衡性。
(6)实施数据生命周期管理。公司发布的《数据需求管理规范》规定了公司内部数据需求的采集、验证、汇总等相关工作,明确了过程中职责分工、工作流程及工作文档模板。在数据项目需求分析阶段,对数据需求与业务流程之间的关系进行详细分析,明确数据的来源、获取方式、编码规则及与业务流程的对应关系。公司围绕产品质量管理、铸坯终判改造、炼钢工艺数字化等业务流程,详细分析了业务流程与数据管理的关系。从数据来源、数据导入途径、数据的应用环节、数据需求的执行主体、编码规则等逐一明确数据需求,确保数据需求与业务流程相匹配。公司充分考虑内部业务的数据使用情况、外部法律规章等因素,采集数据退役需求,综合考量内外部监管要求并制定形成了《数据退役管理规范》,参考数据重要程度的分类,对数据源退役的类型、标准进行了规定。
(7)构建数据要素质量度量评价指标体系。指标体系的评估分析为公司数据要素质量提供了评价框架,同时也为数据管理的持续提升提供方向参考,具体指标体系见表1。
表1 某钢铁公司数据治理度量指标体系
通过实施数据要素治理,公司改进了数据的质量和可用性,提高了数据的一致性,减少了数据的错误和冲突,提高了数据的信任度。数据分析和决策更加有效,进一步提高了公司的业务运营效率和数据要素驱动作用的发挥。
数据要素治理在制造业企业中扮演着至关重要的角色,是数据从简单的代码信息向数据资产转变的关键步骤,同时也是数据驱动要素发挥其价值的必经之路。这种治理方式的实施,不仅可以提高数据的质量,保证数据的一致性,增强数据的安全性,提升数据的可用性,还可以确保数据的合规性。这些都是数据要素治理的基本目标,也是其核心价值所在。
数据要素治理的实施对企业运营效率的提升和成本降低、效益增加都有着深远的影响。通过对数据的精细化管理,企业可以更好地理解数据,更有效地利用数据,从而提高决策的准确性,优化业务流程,提高运营效率。同时,高质量、一致性强、安全可靠、可用性高、合规的数据也可以帮助企业降低风险,减少不必要的损失,从而实现降本增效。
另外,数据要素治理还可以为企业的数据资产管理提供支持。通过对数据的全面、系统地管理,企业可以将数据真正转化为可用的资产,从而为企业创造更大的价值。总的来说,数据要素治理是企业实现数据驱动、提高运营效率、降低成本、提升竞争力的重要工具和手段。
在数字经济如火如荼的今天,制造业企业的数据必将成为数据治理的主战场之一。在数据治理框架和模型方面,更加高效、灵活的数据治理框架和模型将会出现,以适应不同组织和管理需求;
在智能化和自动化方面,数据治理技术与工具将会不断迭代进步,为数据治理的效率和效果提供坚实的基础保障;
在数据治理的标准化和规范化方面,更多的数据治理标准规范和数据治理最佳实践不断涌现。