这是本节的多页打印视图。 点击此处打印.

返回本页常规视图.

第一部分:基础

实施Data mesh的第一部分:基础

本书的第一部分为本书的其余部分做了铺垫:在这一部分结束时,你将熟悉我们的术语和用例。

  • 第 1 章,“了解 Data Mesh:要点”,概述了 Data Mesh 的基本原则,Data Mesh 是一种现代数据架构范式,可促进去中心化数据所有权,将数据视为产品,并为领域团队实施自助式基础设施。 本章以 Dehghani 的基础工作为基础,重点介绍了 Data Mesh 如何通过实现本地自治和更快的响应时间以及培养创新和协作文化,将敏捷性引入数据管理。

  • 第 2 章,“应用 Data Mesh 原则”,总结了 Data Mesh 的关键原则,并重点介绍了这些原则如何应用于数据产品,包括 FAIR(可查找、可访问、可互操作和可重用)产品,以及优质数据产品的构成要素和数据产品的生命周期。 本章的目标是创建实用的 Data Mesh 路线图,将您的战略和愿景转化为可实现的计划,获得高管的支持和资金,赋予熟练的数据产品所有者决策权,并在保持灵活性并与业务目标保持一致的同时吸引客户。

  • 第 3 章,“我们的案例研究:Climate Quantum Inc.”,介绍了 Climate Quantum Inc.,这是一家虚构的公司,利用 Data Mesh 功能来解决管理气候数据的复杂性,使其更易于访问、可用和值得信赖。 通过分散数据所有权和使用面向域的架构,Climate Quantum Inc. 旨在简化大量多样气候数据的发现、使用、共享和验证,从而为气候变化带来的多方面挑战提供可扩展的解决方案。

1 - 第一章:了解数据网格:基础知识

在瞬息万变的企业数据管理领域,数据网格已从一个新兴概念发展成为现代数据架构的基石。 它的崛起标志着企业在处理其数据生态系统日益增长的复杂性和规模方面发生了重大转变。 Zhamak Dehghani 的开创性著作《数据网格》(O’Reilly)阐述了数据网格的基本原理,为数据处理和利用的新时代奠定了基础。 本书以 Dehghani 的原则为基础,旨在弥合理论理解与实际应用之间的差距,将数据网格的原则转化为数据专业人员的实践。 我们认识到,许多读者可能对 Dehghani 的原则并不陌生,因此我们深入探讨,不仅重申了这些概念,还对它们进行了扩展,以展示它们在现实世界中的应用。 对于数据网格的新读者,我们提供了通俗易懂的介绍,确保所有读者都能站在同一起跑线上。 本书以数据网格的核心原则为基础,但又远远超出了这一坚实的基础,说明了如何在企业内有效实施和操作这些原则。 首先,让我们重申 Dehghani 的转型愿景,它基于几项关键原则:

  • 数据作为一种产品

    数据被视为有价值的产品,由领域团队负责开发和提供适合其特定需求的数据解决方案。

  • 去中心化域名所有权

    数据责任分配给特定领域的团队,每个团队对其数据的质量、可访问性和管理负责。

  • 自服务

    这是一个能让领域团队独立管理数据的框架,减少了对集中式数据团队的依赖。

  • 联合计算治理

    在这种模式下,领域团队根据组织的总体政策,在其职权范围内实施数据管理。

使数据敏捷

这些原则与敏捷软件开发方法的精神不谋而合。 2001 年发表的《敏捷软件开发宣言》至今仍是软件行业的一份重要文件,其核心内容是强调个人与互动、工作软件、客户协作和应对变化。 这些原则通过 scrum 和 kanban 等框架转化为实践,这些框架提倡迭代开发、定期反馈循环以及跨职能团队之间的密切合作。

自《敏捷宣言》发表以来,将敏捷核心原则付诸实践已经过去了 20 多年。 我们现在可以更快、更好、更便宜地交付软件: 麦肯锡咨询公司(McKinsey & Company)的研究表明,“敏捷型组织有 70% 的几率跻身组织健康度的前四分之一,这是衡量长期绩效的最佳指标”。 简而言之,软件工程世界已今非昔比。 同样,Data Mesh 将灵活性引入数据环境,强调分散所有权、响应式数据管理和跨职能协作团队。 正如敏捷提倡自组织团队一样,数据网格提倡面向领域的分散所有权,将数据的力量交到各个领域团队的手中。 在敏捷环境下,客户协作涉及与利益相关者的持续接触,以了解他们不断变化的需求。 同样,Data Mesh 鼓励领域团队与其组织内的数据消费者接触,收集反馈并迭代数据产品,以满足他们的特定要求。

就像敏捷重视工作软件一样,Data Mesh 也重视交付高质量的数据产品。 基于敏捷的用户故事定义了所需的功能;数据产品概述了数据的功能、质量要求和可访问性,使领域团队能够构建和交付为利益相关者提供真正价值的数据产品。 简而言之,Data Mesh 将敏捷实践引入数据,从而使数据变得敏捷!

本地自主性 + 速度 = 敏捷性

数据网格具有多种优势,可应对企业在数据管理方面面临的挑战,特别是在采用本地自主性和速度方面,这反过来又会推动敏捷性。 首先,Data Mesh 倡导地方自治。 传统的集中式方法往往会导致数据团队超负荷工作和决策瓶颈。 与此相反,Data Mesh 赋予各个领域团队对其数据的所有权和责任。 这种权力下放使团队能够更深入地了解其具体的数据需求和要求,从而做出更有效的决策和更快的响应时间。 通过促进本地自治,Data Mesh 使团队能够快速适应不断变化的数据需求,并及时做出数据驱动型决策。 通过本地自治,Data Mesh 可以提高速度,而随着速度的提高,上市时间也会缩短。 Data Mesh 专注于自助式数据基础设施,使领域团队能够独立访问和管理数据。 这消除了有时需要向集中数据团队提出的官僚流程和耗时请求,减少了等待时间,加快了数据开发生命周期。 通过将必要的工具和资源交到数据从业人员手中,Data Mesh 实现了数据产品的快速迭代、实验和交付。 速度的提高使企业能够更有效地利用数据洞察力,在当今快节奏的商业环境中赢得竞争优势。

本地自治带来了速度和灵活性:通过分配数据所有权和促进协作,Data Mesh 使团队能够迅速响应不断变化的业务需求和数据要求。 领域团队可以灵活调整其数据产品,甚至在某些情况下调整基础设施,以满足不断变化的需求,避免僵化的集中式系统的限制。 这种灵活性使企业能够抓住新出现的机遇,实时做出数据驱动的决策,并在竞争中保持领先。 也许敏捷性最有趣的副产品就是建立创新和实验文化。 通过本地自治,鼓励团队探索新思路、测试假设并迭代其数据产品。 这可以培养主人翁意识和责任感,从而激发创造力,推动持续改进。 通过采用数据网格原则,企业可以释放其数据资产的潜力,使团队能够发现有价值的见解、开发创新解决方案并推动业务增长。

解决当今的数据挑战

Data Mesh 及其 “敏捷数据 “承诺将解决哪些问题? 数据孤岛可以弥合吗? 数据质量始终是一项挑战,能否提高数据质量? 数据管理方面的差距能否转化为公认的业务价值驱动力?

弥合数据孤岛

让我们从数据孤岛说起。 数据 “孤岛 “阻碍了数据的访问和协作,使我们难以获得整体视角,也无法充分发挥可用数据的潜力。 它们是现代企业中几乎所有数据从业人员都会遇到的真实、直接和严峻的挑战。

数据孤岛就像汪洋大海中的孤岛,是局限于特定部门或系统内的数据存储库,因此与更广泛的组织数据景观脱节。 这种隔离导致数据生态系统支离破碎,宝贵的洞察力仍未得到开发,企业的集体智慧也未得到充分利用。

这些 “孤岛 “的存在往往源于历史悠久的组织结构、不同的技术平台以及随着时间推移而固化的部门界限。 因此,关键的业务决策往往是根据不完整或过时的信息做出的,导致效率低下、错失良机和竞争优势被削弱。

数据孤岛的后果不仅仅是效率低下,它还会严重阻碍组织内部的协作和创新。 当数据被困在孤岛中时,团队就很难获取有效协作所需的信息。 这种缺乏可访问性和可见性的情况导致工作重复、数据实践不一致,以及普遍的组织脱节感。

在当今数据驱动的商业环境中,如果无法整合来自企业不同部门的数据,就会削弱公司应对市场变化、了解客户需求和优化运营的能力。 数据源、法规和业务实践的多样性使本已错综复杂的数据集成和统一工作更加复杂。

要克服数据孤岛的挑战,就必须采取战略性的协同努力,培养数据共享和协作的文化。 这不仅涉及采用新技术,还涉及组织心态和做法的根本转变。

有鉴于此,Data Mesh 变得非常重要,它为数据管理提供了一个分散但具有凝聚力的框架。 数据网格倡导以领域为导向的数据所有权,使各个团队能够有效地管理和共享数据,同时与组织的总体目标保持一致。 通过采用这种模式,企业可以逐步拆除数据孤岛的障碍,为建立更加集成、敏捷和以数据为中心的组织文化铺平道路。

转向更高质量的数据

随着数据量和种类的增加,确保数据质量和完整性变得越来越困难。 数据质量差会导致错误或糟糕的业务决策、错误的战略,并最终对业务成果产生不利影响。 更糟糕的是,数据的复杂性可能会阻碍合规工作,因为当数据分散且错综复杂时,理解数据隐私法规的细微差别就变得更加困难。 对于全球性组织来说,这一挑战因需要驾驭错综复杂的地区和国际数据法律而更加严峻。

要驾驭这种复杂性,需要采取多方面的方法,将技术、战略和组织文化融为一体。 机器学习(ML)和人工智能等先进技术为分析复杂的数据集、发现模式和产生人类无法识别的洞察力提供了强大的工具。 然而,技术本身并不是万能的,它必须与优先考虑数据管理、质量和集成的强大数据战略相结合。 企业需要培养数据文化,让各部门员工了解数据的重要性,并掌握有效利用数据的技能和工具。

向更敏捷、更灵活的数据架构转变,如 Data Mesh 所倡导的架构,也能起到至关重要的作用。 通过分散数据所有权和管理权,Data Mesh 允许特定领域的团队更有效地处理数据,减少瓶颈并提高对变化的响应速度。 这种方法不仅有助于管理复杂性,还能让团队从数据中获取最大价值,将潜在障碍转化为战略资产。

变革数据管理

最后但并非最不重要的是每个数据从业人员最喜欢的话题:数据治理。

数据治理是现代企业数据管理架构中不可或缺的组成部分,这主要是因为需要遵守监管、隐私和企业安全政策。 有效的治理可确保数据的管理和使用方式符合这些外部和内部要求。

然而,不断增加的监管要求又增加了一层复杂性,欧盟的《通用数据保护条例》(GDPR)、美国的《健康保险可携性和责任法案》(HIPAA)等严格的要求以及其他法规都对数据处理、隐私和保护施加了严格的指导和限制。 要驾驭这个错综复杂的法规网络,不仅需要强大的安全基础设施,还需要对数据管理和治理保持警惕,采取积极主动的方法。

鉴于对违规行为的处罚以及与数据泄露相关的风险,治理不仅是一个合规问题,也是一项重要的业务需求。 在这种不断变化的情况下,数据治理必须敏捷、反应迅速,并与日常数据处理深度融合。

传统上,数据治理通常通过集中模式进行管理。 虽然这种模式提供了统一性和中央控制,但经常导致缓慢和官僚主义的做法,造成瓶颈,阻碍数据的动态使用。 在集中式治理系统中,有关数据访问、质量和安全的决策往往由一个独立的中央机构做出,与数据的使用环境相去甚远。

这种距离会导致治理政策与不同业务部门的实际需求和现实之间效率低下和不协调。 其结果往往是治理模式被视为阻碍而非推动因素,从而减缓了创新和对不断变化的业务和市场需求的响应速度。

如今,数据管理往往被视为一项必须完成的任务,是上级下达的命令,而不是一项能带来内在价值的任务。 数据网格提供了另一种选择。

Data Mesh 通过倡导联合治理模式来应对数据治理方面的挑战,该模式将治理责任赋予最了解数据的数据所有者。 在这种模式中,管理是分散的,每个领域团队负责其数据产品的管理。 这种方法可确保由那些对数据背景、使用和风险有最深入了解的人做出管理决策。 这将使治理实践更加贴切、高效和有效,并与每个领域的具体需求紧密结合。

为了更好地理解 Data Mesh 的联合治理模式,可以将其与美国国家标准协会 (ANSI) 或加拿大标准协会 (CSA) 进行类比–几乎每个国家或地区都有类似的组织。 在这种情况下,ANSI 或 CSA 制定规则和政策,并提供认证程序,使供应商能够确保其产品符合既定标准。 这一认证过程就像一个信任的 “品牌 “或 “标志”。 然后,供应商可以公布其认证状态,向消费者表明其产品符合高标准。

在数据网格治理模式中,一般或范围广泛的政策是集中制定的,类似于 ANSI/CSA 制定产品标准和政策,数据产品所有者 (DPO) 负责实施和报告政策的遵守情况。 DPO 确保其数据产品符合既定的治理标准,一旦符合标准,就可以认证为符合企业的治理标准。

这一认证不仅是组织内部信任和质量的标志,而且还通过授权最接近数据的人员来简化管理流程。 它确保治理不是一个自上而下的官僚程序,而是一种协作性的综合实践,能够提高整个企业的数据价值和安全性。

此外,DPO 最接近数据及其使用案例,在理解和有效管理合规要求方面处于独特的地位。 他们可以发布和更新自己的认证状态,使这些信息在 Data Mesh 生态系统中透明并可访问。

这种方法与传统的集中治理模式形成鲜明对比,后者通常由一个负责监督和管理所有数据活动的中央小组来管理合规性。 虽然这种模式在保持控制和统一性方面有其优势,但也可能导致瓶颈、延误以及治理流程与数据的实际应用脱节。

在联合模式中,合规责任是分散的,可在 DPO 之间培养问责和敏捷的文化。 他们可以更迅速地应对法规或业务需求的变化,更新认证状态,确保其数据产品始终合规。 这不仅能简化管理流程,还能将合规性嵌入数据网格的结构中,使其成为数据产品生命周期中不可分割的一部分,而不是一个外部强制流程。

数据量、多样性和可变性

数据本身的特点如何?

如今,数据创建和消费的速度已经成为企业面临的一个决定性挑战。 数据的快速生成和消耗就像高速行驶的列车,因此必须采用持续、灵活的数据管理方法。

传统的数据基础设施往往难以跟上步伐,导致数据处理和分析出现瓶颈和延误。 我们面临的挑战不仅在于如何存储这些海量数据,还在于如何实时处理这些数据并从中提取价值。 企业需要调整其基础设施、工具和流程,以管理这些海量数据,并有效利用这些数据及时做出决策和提出见解。

Data Mesh 为应对数据速度的挑战提供了令人信服的解决方案。 首先,如前所述,本地自治将决策权–如何处理数据、如何转换数据以及如何最有效和高效地使用数据–下放给最接近数据和最了解数据的人。 如果数据速度加快,决策制定也必须相应提高,而 Data Mesh 提供的本地自主性正是解决这一问题的方法之一。

Data Mesh 的设计本身就是为了高效处理大量高速数据。 它通过分散数据所有权和管理权来实现这一目标。 在数据网格框架中,数据不再是单点管理的集中资产。 取而代之的是,它分布在多个特定领域的团队中,每个团队都配备了工具和自主权,以管理自己的数据生态系统。

这种分散式方法允许分布式团队独立处理数据,从而大大缩短了数据摄取、处理和分析所需的时间。 通过增强领域团队的能力,Data Mesh 可确保数据处理更加灵敏,并与每个领域的具体需求和动态保持一致,从而实现更快、更有效的决策。

现在,本地自治与 Data Mesh 的 “自助服务 “功能相结合。 消费者可以使用标准的、众所周知的、已发布的接口,随时访问数据。 数据提供者可以创建数据产品,只需极少的中央小组参与。 此外,还可按需提供扩展数据产品所需的平台能力。

通过采用 Data Mesh,企业可以将数据速度的挑战转化为机遇,利用快速的数据流推动创新,提升客户体验,并做出更明智、更灵活的业务决策。 简而言之,Data Mesh 可让企业跟上数据的速度、种类和变化。

将原则转化为实践

现在,我们希望您能看到 Data Mesh 的明显优势。 但要实现这些优势,就必须将革命性的数据网格原则付诸实践。 这就是我们认为本书的核心目的。 本书由三个基本目标驱动,每个目标都经过精心设计,以指导专业人员掌握数据网格。

我们的第一个目标是揭开从数据网格理论到实践过渡的神秘面纱。 我们不只是抽象地讨论原则,而是通过现实世界的例子、详细的案例研究和可直接应用于组织环境的实用策略来说明这些原则。

其次,我们的目标是加快您的数据网格之旅。 了解数据网格的复杂性是一回事,高效和有效地应用它们又是另一回事。 本书提供了一整套技术和最佳实践,这些技术和最佳实践是从领先的行业专家和先驱组织中提炼出来的,可帮助您快速实施 Data Mesh。 我们将深入探讨自动化管理、优化数据产品设计以及利用尖端技术扩大 Data Mesh 在企业中的优势等高级主题。

第三,我们的目的是为 Data Mesh 的成功绘制清晰、可行的路线图。 本路线图不仅仅是一个理论指导,它还是一个实用的工具包,可以解决在实施 Data Mesh 过程中遇到的常见挑战和陷阱。 从建立强大的自助服务数据基础设施到培养以数据为导向的企业文化,我们为您提供循序渐进的指导,帮助您驾驭数据网格的复杂性,确保从开始到执行的整个过程顺利、成功。

通过接受这些原则并将其转化为可操作的实践,我们展望未来,企业可以充分利用数据网格的变革力量。 我们相信,采用 Data Mesh 原则可以将数据计划推向前所未有的高度,使企业变得更加灵活、以数据为导向并更具竞争力。

我们撰写本书的愿望源于一个谦逊而大胆的愿景:二十年后,我们希望回顾过去,看到 Data Mesh 是将敏捷方法引入数据管理领域的关键力量。 我们的贡献虽然只是这场大运动中微不足道的一部分,但我们的目标是使企业能够从数据中获得更好、更快、更具成本效益的见解和业务价值。 在本书中,我们试图激励新一代的数据专业人士,为他们提供知识和工具,以彻底改变数据管理实践,并推动他们的组织走向这样一个未来:数据不仅是资产,也是创新和增长的催化剂。

在当今数据驱动的时代,企业在管理和利用数据力量方面面临着无数挑战。 数量庞大、种类繁多的数据源可能会让人应接不暇,就像一条泛滥成灾的河流,让企业难以驾驭。 如何理解这些海量数据、确保其质量以及提取有价值的见解,都构成了重大障碍。

Zhamak Dehghani 的数据网格原理为数据管理提供了一个革命性的愿景。 他们主张分散所有权、自助式数据平台、联合计算管理和跨职能合作。 通过将敏捷原则应用于数据,Data Mesh 促进了本地自主性、速度和敏捷性。 将这些原则付诸实践的组织可以克服数据挑战,释放数据网格的优势,提高数据的可访问性、质量和对不断变化的数据需求的响应能力。

本书的其余部分旨在就以下方面提供实用指导:实施数据网格、建立自助式数据基础设施、培养数据产品思维、实施联合计算数据治理、创建分散的所有权、促进跨职能协作以及推动组织内的知识共享。 我们将讨论几个主题:

  • 定义要点

    我们将定义数据产品(第 2 章),以及它们如何成为 Data Mesh 生态系统的成员。 我们将介绍我们的案例研究(第 3 章)–应用 Data Mesh 使气候数据易于查找、消费、共享和信任–该案例研究将贯穿全书,用于演示如何实施 Data Mesh 实践。 当然,我们还将提供有关 Data Mesh 架构的观点(第 4 章)。

  • 拥抱数据产品思维模式

    我们将介绍数据合约(第 5 章)如何使 Data Mesh 生态系统的所有成员都能找到彼此并进行交互。 我们将解释如何鼓励领域团队将数据视为一种产品,为数据产品定义清晰的边界,并建立首个数据产品所需的应用程序接口、文档和支持机制(第 6-8 章)。 最后,我们将介绍一种 “测试和学习 “的思维方式,鼓励团队根据反馈和不断变化的业务需求迭代和改进数据产品,并在每个数据产品团队中促进持续改进和创新的文化。

  • 使数据敏捷

    然后,我们将介绍 Data Mesh 生态系统中数据产品的核心接口(第 9 章),使数据产品可被发现、观察和操作。 我们将介绍通过发现和可观测性获得的数据产品的关键 “超级能力”:数据网格市场(第 10 章)。 我们还将介绍一种转型方法,该方法以现代现实世界中的实例为蓝本,用委托 “认证 “方法取代传统的数据治理方法(第 11 章),以及一种构建数据生态系统及其数据 “供应链 “的 “工厂 “方法,该方法允许您的数据网格成长和发展(第 12 章)。 最后,生成式人工智能–OpenAI、ChatGPT 及其开源同类产品有望撼动现代企业的根基。 数据网格显然也不例外。 事实上,我们看到了生成式人工智能的实质性和广泛用途,我们将对此进行解释(第 13 章)。

  • 创建面向领域的去中心化所有权

    我们将介绍实施数据网格所需的 “团队拓扑结构”(第 14 章)。 我们将定义并描述数据网格运行模式的复杂性(第 15 章)。 然后,我们将讨论激励机制和组织结构,使数据网格能够优雅地发展和壮大。

  • 创建数据网格路线图

    我们将提供一个久经考验的 “路线图”(第 16 章),从战略入手,说明如何实施核心数据产品和 Data Mesh 基本要素,以及如何建立数据产品团队和更广泛的 Data Mesh 运营模式。 我们还将展示如何通过实践社区、定期跨职能会议或数据委员会在领域团队之间建立协作和知识共享渠道。 我们将演示如何在企业内部实现数据网格的社会化,以鼓励团队分享最佳实践、经验教训和数据资产,从而充分利用企业的集体知识和专业技能。

总结

将这些原则付诸实践,企业就能克服数据管理方面的挑战,实现数据网格的优势。 他们可以实现所渴望和需要的本地自主权,赋予数据产品团队对其数据的所有权和控制权,使他们能够以更快的速度运行,利用自助服务基础设施,并实现快速迭代和实验。 最后,他们可以通过促进合作、采用数据产品思维和实施联合计算数据治理来实现敏捷性。 按照这些实用步骤,企业可以转变数据管理方法,充分释放数据资产的潜力。 尽情享受吧!

2 - 第二章:应用数据网格原则

如图 2-1 所示,最简单的 数据网格 就是一个由交互数据产品组成的生态系统。 在任何生态系统中,都有许多活动部件,每个部件都在一定程度上独立运行,但通过通用标准和通信主干网连接在一起。 理想情况下,数据网格中的数据产品具有一套统一接口的通用技术实现。

22\_image\_0.png

图 2-1. 数据网格:由交互式数据产品组成的生态系统

数据网格的基础是数据架构领域的一个概念框架,它强调分散的数据所有权和架构。 它认识到,在大型组织中,数据量巨大且种类繁多,每个业务领域对自身数据都有很大程度的自主权(以及对本地数据的了解和掌握)。 通过分散控制,Data Mesh 使各个域能够管理其数据并做出决策,同时保持整体结构的一致性。 有了这种自主性,就可以更好、更本地化、更快地做出决策,从而提高速度和灵活性。

在数据网格中,“数据产品 “是一个数据包,它自成一体,具有自描述性,并面向特定的业务目的或功能。 数据产品是为实现组织内特定业务目标而精心设计的数据包。 它们不仅仅是数据的集合,而是将数据本身与基本工具、文档和元数据封装在一起的综合单元。 这确保了数据不仅存在,而且可以理解和使用。 每个数据产品都以目的为导向,为满足特定业务需求或解决特定问题而量身定制,使其不仅仅是信息存储库。

数据产品的结构是自足的,这意味着它包含了有效利用所需的一切。 它坚持严格的质量和管理标准,从而确保可靠性、安全性和符合相关法规。 这种全面的方法使数据产品成为组织内值得信赖和依靠的资源。 它们在设计时考虑到了用户的可访问性,提供的界面和文档便于从数据专家到极少专业技术知识的各类用户浏览。

此外,每个数据产品的生命周期都得到了精心管理。 每个数据产品都有指定的所有者,负责维护、更新和整体管理。 这种管理可确保数据产品保持相关性,并随着时间的推移继续提供价值。 对这些数据产品的持续监督和改进是其不断发展的基础,可确保它们与组织的动态需求和目标保持一致。 这种生命周期管理是数据产品的一个重要方面,它使数据产品不仅仅是静态数据集,而是数据网格生态系统中不断发展的资产。

关于 Data Mesh 生态系统,我们将在第 4 章详细介绍。

数据网格原则

正如我们在第 1 章中提到的,Data Mesh 的核心是一套指导原则,其中每项原则都对该框架的有效性和可持续性起着至关重要的作用。 让我们在这里详细介绍一下。

数据作为一种产品

这些原则中的第一条就是将数据视为产品。 在传统的产品管理中,产品要满足需求、有所有者(稍后详述)、有长期路线图(与项目不同,项目有开始和结束时间)。 所有这些特点也适用于数据产品。

这些特征为每个数据产品确立了明确的边界。 这种边界划分描述了一个领域,对于定义数据产品所代表的内容、范围和局限性至关重要。 数据网格中清晰的边界可确保每个数据产品都是更大生态系统中定义明确的实体。 这种明确性有助于人们清楚地了解数据产品的目的,并有助于管理期望值以及适当地引导工作和资源,确保每个数据产品都能有效地发挥其预期作用。

但还不止这些。 在 Zhamak Dehghani 的著作Data Mesh中,她将数据产品描述为可发现、可寻址、可理解、可信和真实、本地可访问、可互操作和可组合、自身有价值以及安全。 我们将在后面的章节中进一步讨论这些具体属性。

去中心化域名所有权

Data Mesh 框架的另一个基本原则是分散域所有权的概念,它能有效地为每个数据产品建立一个授权所有者(和团队)。 该框架的这一方面借鉴了为每个城市街区配备一名专职管理者的理念,该管理者要对街区的福祉进行深入投资和负责。 同样,数据网格中的每个数据产品都有一个所有者,对其性能、质量和是否符合管理标准负责。

获得授权的 DPO 的作用是多方面的。 DPO 的任务是确保数据产品符合具体业务要求和总体治理框架。 这种协调对于保持数据产品的完整性和实用性至关重要,可确保其始终是组织数据环境中的宝贵资产。

自服务数据平台

数据网格概念的第三个核心原则是为消费者和生产者提供自服务能力。

对于数据消费者来说,“自服务 “意味着能够轻松查找、消费和信任数据,而无需第三方(或中央团队或工程小组)的协助。 这通常是作为一个 “市场 “来实现的,它提供一个门户网站(网络/移动网站),将数据产品分组,供消费者使用。

现在,我想简单说一下 “市场 “这个词:与数据目录相比,市场的独特之处在于它既提供消费者功能,也提供生产者功能。 通常所说的 “双面市场 “*既能让消费者找到数据,也能让数据生产者轻松发布数据。 从这个意义上说,市场的生产者能力也是自助式的。 数据网格应使任何人(在遵守正常安全规定的前提下)都能轻松发布数据产品。

数据网格中的自助服务功能不仅能增强用户的能力,还能培养创新和敏捷的文化。 它使个人能够利用数据满足其特定需求,鼓励实验和个性化分析。 这种功能减少了通常与集中式数据系统相关的瓶颈问题,因为在集中式数据系统中,数据访问和分析请求可能会延缓决策进程。

联合计算治理

指导 Data Mesh 框架的最后一项原则是联合计算治理,它指的是一种分散的方法,用于管理和执行组织内不同领域或团队的数据策略、标准和质量。

联合治理将这些职责分配给特定领域的团队,而不是由一个集中的数据治理团队来实施规则和标准。 每个团队在遵守组织层面制定的总体原则的同时,管理自己的数据。 尽管数据所有权是分散的,但联邦计算治理确保有一个统一的框架来管理、使用和共享数据。

目前,可以说 Data Mesh 为改进数据管理提供的机会还处于起步阶段。 因此,实施联合计算治理需要微妙的平衡。 这涉及到创建足够强大的治理结构,以确保一致性和合规性,同时又足够灵活,以适应不同数据产品的独特需求和环境。 这种平衡是营造创新环境的关键所在,在这种环境中,创新可以蓬勃发展,同时又不会损害对具有凝聚力的数据生态系统至关重要的标准和协议。

定义 “优质 “数据产品

如前所述,数据网格是一个数据产品生态系统。 实际上,数据产品是任何数据网格的基础构件,也是不可分割的最小单位,类似于 “数据量子”。 显然,数据产品至关重要,但 “好 “数据产品的定义是什么? 如图 2-2 所示,构成 “好 “数据产品的属性有很多,包括技术、业务、易用性和其他特征。

25\_image\_0.png

定义有原则的数据产品

那么,从哪里开始呢? 让我们从一个简单、也许显而易见的声明开始:好的数据产品遵守 Data Mesh 原则。 让我们来看看这些原则,并将它们应用到数据产品中。

首先,好的数据产品应与分散的领域所有权相一致:它们应与一个边界清晰的领域(无论大小)相一致,并有一个获得授权的所有者。 其次,好的数据产品顾名思义是产品而不是项目。 好的数据产品和其他产品一样,都有一个生命周期、明确的消费者和清晰的价值定位。 好的数据产品是自助式的,这意味着用户可以从数据产品中获得他们需要的东西,而无需第三方的过度参与。 好的数据产品有一个联合治理机制,为 DPO 及其团队在数据产品层面提供地方自主权和决策权。 这也意味着 DPO 及其团队有责任确保其数据产品符合企业准则和标准。

定义公平的数据产品

好的数据产品还应遵守 FAIR 原则。 数据应该是

  • 可查找
  • 无障碍
  • 互操作性
  • 可重复使用

根据 FAIR,“原则强调机器可操作性(即计算系统在没有或极少人类干预的情况下查找、访问、互操作和重复使用数据的能力),因为随着数据量、复杂性和创建速度的增加,人类越来越依赖于计算支持来处理数据”。

让我们详细阐述这些原则,并将其应用到数据产品中。 _可查找性_是 FAIR 原则的第一条。 数据产品要想有价值,就必须能在企业更广泛的数据范围内被轻松发现。

_可访问性_是另一个关键原则(请注意,我们使用 “可访问性*“是指一般意义上的可访问性–易于使用,而不是指满足用户特定的可访问性需求)。 数据仅仅可查找是不够的:一旦被找到,数据产品还必须易于访问。 可访问性包括提供全面的文档,解释如何使用数据,以及确保数据可以轻松集成到各种应用程序和工作流程中。 好的数据产品应该像设计精良的软件应用程序一样简单易用,并有明确的说明和支持。

_互操作性_是 FAIR 原则的一个重要方面。 这是指数据产品协同工作和有效整合的能力。 实际上,这意味着应使用标准数据格式和协议创建数据产品。 例如,如果一个数据产品使用 XML 格式,而另一个使用 JSON 格式,那么就应该有相应的工具或服务,使这些不同的格式能够无缝地结合在一起使用。 同样,互操作性也可能意味着使用通用标准(如 SQL 或 RESTful API)或通用标识符。 这种互操作性对于组合和利用各种来源的数据至关重要。

第四个原则是_重复使用_,重点是在多种情况下应用数据的能力。 这一原则对于最大化数据价值尤为重要。 设计成模块化和可重复使用的数据产品可用于不同的项目和应用。 例如,包含客户人口信息的数据产品可用于营销团队的营销活动规划、销售团队的销售策略制定以及产品开发团队的市场分析。

除了这些技术方面的问题,遵守 FAIR 原则还涉及到培养一种合作和数据共享的文化。 这种文化转变对于打破孤岛和鼓励重复使用数据产品至关重要。 这意味着要推广一种组织思维,将数据视为可用于多种目的的共享资源。

总之,数据网格中的 “好 “数据产品是指那些 FAIR 数据产品:可查找、可访问、可互操作、可重用。 这些原则确保数据不仅得到存储,还得到积极的管理和使用,从而为组织增值。 遵循 FAIR 原则的数据产品不仅仅是信息存储库,它们还能转化为动态资产,推动整个企业的创新和决策制定。

定义企业级数据产品

FAIR 原则为理解 “优质” 数据产品提供了一个视角。 但是,在企业中,怎样的数据产品才算 “好 “产品呢? 或者更具体地说,“好的 “企业级数据产品的定义是什么? 在企业级数据产品领域,有几个关键属性共同决定了产品的质量和有效性。 这些属性包括安全性、可靠性、可观测性、可操作性、可部署性和全面的文档,形成了一个有凝聚力的结构,可确保数据产品在组织内的价值。

实际上,企业级数据产品的优势在于其关键属性的无缝集成。 安全性、可靠性、可观察性、可操作性、可部署性和全面的文档不是孤立的,而是相互关联的,每个方面都对产品的整体功能和价值起着至关重要的作用。 满足这些要求的产品不仅仅是一个数据存储库,更是一种能推动业务效率、创新和决策制定的动态资产。 要创建符合企业环境严格要求的数据产品,了解这些属性如何相互作用和相互支持至关重要。

在这些企业级属性中,安全 可能是最重要的。 企业级数据产品必须能够抵御未经授权的访问和违规行为,确保所保存数据的机密性和完整性。 这种安全性不仅关系到信息安全,还关系到维护用户信任和遵守监管标准,如 GDPR 或 HIPAA。 在这一过程中,实施强大的加密、访问控制和定期安全审计是不可或缺的,这将为潜在的网络威胁建立一道坚固的屏障。

然而,仅有安全是不够的。 数据产品的可靠性同样重要。 用户需要相信数据产品在任何时候都能提供准确、一致的信息。 确保可靠性包括实施验证检查和错误检测算法,以及保持数据的高可用性。 这就是可靠性概念与安全性概念的交叉点:安全的数据产品本质上更加可靠,因为它能防止数据被篡改和丢失。

_可观察性_扩展了可靠性的概念。 这关系到能否监控数据产品的健康状况和性能。 通过使用工具跟踪响应时间和错误率等各种指标,企业可以主动管理数据产品的健康状况或数据质量。 这种积极主动的管理对保持产品的可靠性起着至关重要的作用,因为它可以在潜在问题升级之前及早发现和解决。

与可观察性密切相关的是_可操作性_方面。 操作性强的数据产品更易于管理和操作。 这涉及简化数据产品生命周期管理的功能,包括部署、扩展、更新和故障排除。 高可操作性可确保产品在整个生命周期内保持功能性和有效性,以最小的干扰适应不断变化的要求,从而支持产品的可靠性。

_可部署性_是另一个关键属性,尤其是在动态业务环境中。 高度可部署的数据产品可轻松实施并集成到各种业务流程和技术环境中。 无论是扩大规模以适应业务增长,还是与新系统和应用程序集成,这种灵活性对于跟上企业不断变化的需求都至关重要。

所有这些特性的基础是_全面的文档_。 文档是数据产品的支柱,可明确说明数据产品的使用、管理和集成。 它包括从用户指南和 API 文档到操作程序和架构图的所有内容。 良好的文档记录不仅有助于有效利用数据产品,还能确保符合监管标准,便于审计和合规检查。

这些属性之间的相互作用创造了一个整体的企业级数据产品。 例如,健全的文档可通过概述精确的数据处理程序来提高安全性,而可观测性则可通过确定预测性维护需求来为可靠性战略提供信息。 同样,结构合理的文档通常也便于操作,为管理和更新数据产品提供了明确的指导。

定义有价值的数据产品

俗话说,“爱美之心人皆有之”。 尽管如此,我们还是可以利用数据产品的一些客观特征来清晰明确地确定其价值。 首先,有价值的数据产品从根本上说是由其相关性和实用性决定的。 此类产品的主要目的是解决具体的业务需求或问题,使其成为知情决策和洞察力生成的重要工具。 其价值与其在解决实际业务问题或提高运营效率方面的实际应用直接相关。 因此,衡量一个数据产品是否有用的标准是,它是否能够促进行动、支持决策或提供直接适用于用户需求的见解。

质量和可靠性是有价值的数据产品不可或缺的属性。 这些属性不仅包括数据的准确性、一致性和完整性,还包括数据的及时性和与当前业务场景的相关性。 此外,可靠性还包括数据产品的技术方面,包括其性能,如处理速度和可用性。 确保高质量和高可靠性至关重要,因为这些因素会直接影响数据产品在操作和决策过程中的可信度和可靠性。

可用性是决定数据产品价值的关键因素:如果数据产品过于复杂或不直观,那么无论基础数据质量如何,其潜在效用都会降低。 因此,数据产品的设计和界面应便于使用,以确保其目标用户能够有效地加以利用。 与此稍有关联的是互操作性,换句话说,数据产品从操作角度来看也是可用的。 一个有价值的数据产品不仅要能独立运行,还要能与其他数据产品无缝集成。 这种互操作性对于全面分析和洞察力的产生至关重要,因为它允许对不同领域的数据进行组合和分析。 此外,遵守监管要求和安全标准也是不容商量的。 确保数据隐私、遵守 GDPR 或 HIPAA 等法规以及维护稳健的安全协议是数据产品完整性和价值的基础。

最后,可扩展性和可维护性是有价值数据产品的关键方面。 它应能处理不断增加的数据量或用户需求,而无需进行重大的重新设计或返工。 除可扩展性外,可维护性–数据产品是否易于更新、修改或修复–对其长期实用性也至关重要。 这包括产品根据用户反馈和不断变化的业务需求进行演变的能力,确保产品长期保持相关性和价值。 与组织的战略目标保持一致并为业务目标做出贡献–无论是通过降低成本、创造收入还是风险管理–都能巩固数据产品在组织生态系统中的价值。

定义平衡数据产品

传统上,IT 组织–尤其是那些高度集中的组织–在很大程度上倾向于优化成本控制。 当信息技术与业务成果联系不紧密或仅有间接联系时,成本控制–注重效率–就很常见。 这种关注虽然在财务上是谨慎的,但往往与企业对速度和灵活性日益增长的需求相冲突,而在当今快节奏的市场环境中,速度和灵活性越来越重要。 有价值的数据产品的一个关键属性就是在成本和效率与速度和灵活性之间实现平衡。

然而,转换一下视角就会发现一个有趣的动态。 事实上,经验表明,优先考虑速度和敏捷性并不一定会影响成本效益,通过专注于这些方面,企业可以实现更高效的产品交付,从长远来看可以节约成本。 这种效率源于快速适应市场变化、客户需求和新技术进步的能力,从而减少了耗费在冗长项目周期上的时间和资源。

不过,这确实建议采用渐进式开发方法,将数据产品或其组成能力分解成较小的、可管理的交付单元。 这样就可以根据反馈和不断变化的要求进行快速迭代和调整。 使用原型和最小可行产品(MVP)是这一方法的核心,使团队能够在不投入大量资源进行全面开发的情况下测试想法和概念。 显然,刚开始使用 Data Mesh 的组织应该考虑这种方法。

渐进式方法有几个好处。 首先,由于可以在更短的周期内实施和测试变更,因此可以更快地响应市场需求和客户反馈。 其次,它降低了与大型数据产品相关的风险,因为可以在过程中进行调整,避免了完全致力于单一、僵化的交付计划所带来的代价高昂的隐患。

定义现代数据产品–不仅仅是"常规"数据

数据网格中的数据产品通常被认为只围绕"传统"数据:数据库、表格等。 不过,这种观点有一定局限性,甚至可能已经过时。 虽然这类数据确实是基础要素,但数据产品包含的人工制品要广泛得多。

在这种情况下,_人工制品_是指 DPO 决定向数据产品用户或更广泛受众提供的任何对象、实体或项目,如图 2-3 所示。

31\_image\_0.png

图 2-3. 数据产品人工制品

这些工件是数据产品的 “内部结构”,可能包括

  • “常规"数据,如数据库、表格或文件。 我们称之为 “常规 “数据,因为它是当今数据产品中最常见的人工制品类型。 数据产品可能会继续优先集成和管理数据库、表格和文件等传统数据形式,因为这些结构化数据类型是大多数分析和操作流程的基础。

  • 图像、视频和音频,在我们的现代多模态数据环境中已变得司空见惯。 这些数据形式提供了丰富的上下文信息,可显著增强分析、ML 模型和决策过程。 随着企业致力于获得更全面的洞察力,无缝处理和分析结构化和非结构化数据(如可视化内容)的能力变得越来越重要。

  • 文档,如 PDF 或其他面向文本的非结构化数据。 - 指南,可帮助消费者了解或消费数据产品。 不言而喻,清晰而全面的文档有助于用户了解如何有效地利用每个人工制品。 当然,这些文件应易于获取和理解,以满足不同专业水平的用户的需求。

  • 模型,包括较早的人工智能/ML 模型以及较新的生成式人工智能大型语言模型。 在许多现代数据产品中,数据被用于训练或微调 ML 或 AI 模型。 这些模型在作为人工制品并提供给用户使用时,可以为数据产品中的数据提供独特的见解。

  • 经过审核(安全、性能良好等)的查询,可简化数据产品的使用。 这些可以包括预编写的 SQL 查询或其他访问方法,为用户提供随时可用的洞察力。 这些查询对那些可能不具备深厚的专业技术知识,但需要从数据产品中获取有意义信息的用户尤为重要。 数据流代表了数据产品的一个动态方面,用户可以订阅数据产品中的特定主题,并在数据发生变化或更新时收到通知。

  • 报告,提供一套预先格式化的数据产品输出结果。 - 演示如何有效使用产品中的数据或展示数据产品中使用的处理逻辑的笔记本和程序。 这些计划可能包括为数据产品用户提供 “入门套件”,让他们了解如何与数据互动并从中获取价值。 这些程序可以展示从数据中得出的关键见解或分析,为用户的探索提供一个良好的开端。

  • 元数据,或有关数据产品、其内容、字段和格式的数据。 - 转换,包括管道和其他工作流程工具,用于接收数据并将其转换为消费者可用和方便的形式。

选择要纳入数据产品的人工制品是一项重要决定。 它反映了 DPO 对目标受众的需求和偏好的理解。 通过精心整理这些人工制品,所有者可以大大提高数据产品的可用性和吸引力。 这通常需要深入了解人工制品的技术方面和数据产品中的用户旅程。

现在,什么是现代数据产品? 它是一种数据产品,可以超越"常规"数据,并认识到不断变化的数据环境和我们所处的多模态数据世界。 它是一种数据产品,包含全面的数据和工具,包括人工智能模型、笔记本或程序,使复杂的数据洞察成为可能。 它是一款数据产品,展示了数据管理从静态存储到动态互动平台的演变过程,使用户能够从数据中获得更大的价值和洞察力。

定义实用的数据产品生命周期

当你在考虑一个产品时,你就在隐含地考虑它的生命周期。 让我们考虑一下您的汽车(如果您没有汽车,您可能认识一个有汽车的人)。 在你购买之前,制造商需要一定的时间来设计、开发和测试。 在某一机型上市销售的同时,制造商还在继续开发新的机型。 丰田凯美瑞就是一个很好的例子,该车于 1979 年作为 Celica Camry 推出,45 年后的今天仍在销售。 下面我们就以凯美瑞为例进行说明。

在传统的数据工程中,通常由一个集中的团队负责构建数据集。 如 [图 2-4](file:///opt/Koodo Reader/resources/app.asar/build/index.html#fig_4_data_product_lifecycle_early_stages)所示,该团队会交付数据集;或者支持数据集,或者将数据集移交给运营团队,直到数据集退役。 事实上,大多数数据项目都是这样的:经过一段时间的开发后,项目就会进入生产阶段,直至退出。 由于没有替代数据集,退休往往是不可能的。 回想起我们的凯美瑞,就好像我们还在驾驶一辆 20 世纪 90 年代的汽车。

33\_image\_0.png

图 2-4. 数据产品生命周期(早期阶段)

如果要建立一个新的数据集来取代第一个版本,过渡往往非常困难。 如图 2-5 所示,数据集正在从版本 1 向版本 2 演进,如果没有足够的时间来促进过渡,就会给消耗团队带来巨大的负担。 过渡时期可能会很艰难,会有很多变化。

33\_image\_1.png 没有足够的时间 图 2-5. 数据产品生命周期(数据集的新版本) 为了缓和数据集两个版本之间的过渡,团队可以在其中包含一个支持期或下降期,在此期间同时提供两个数据集,如图 2-6 所示,数据集正在从版本 1 演进到版本 2。

33\_image\_2.png

图 2-6. 数据产品生命周期(在数据集版本之间有一个缩减期)

这些设计非常适合拥有中心团队的组织。 交付数据集后,开发团队可能会转向另一个项目。 这样做的缺点是,不能保证负责 v2 项目的团队与负责 v1 项目的团队相同,因此无法充分利用在 v1 项目中获得的专业知识。

想象一下,你可以迭代改进你的产品,提供增量价值,而不是大爆炸式的转变。 回到凯美瑞的例子,2014 款和 2015 款之间有一个渐进的转变,但这并不是一个重大的车型变化(比如 2016 款和 2017 款之间的变化)。 使用语义版本法,凯美瑞 2014 款可能是 v50.14.0,2015 款可能是 v50.15.0;然而,2017 款将是 v70.0.0,这表明发生了重大变化。

如图 2-7 所示,这种方法不排除需要进行重大(和破坏性)改动。 尽管如此,您仍然可以让您的开发团队集中精力,完成任务,并增长他们的领域专业知识。 开发团队不必那么庞大,但更重要的是,您将看到持续的关注、不断增长的领域专业知识以及对单一、一致的消费者体验的持续改进所带来的好处。 这一流程完全符合所有现代(敏捷)软件开发战略。

34\_image\_0.png

图 2-7. 数据产品生命周期(数据集的增量和新版本)

如图 2-8 所示,随着数据集的构建和增长,它们会保持与同一领域一致,提供类似的用户体验。 此外,数据合同(将在第 5 章中详细阐述)将为您公开的数据集提供大量信息。

34\_image\_1.png

图 2-8 新版本数据集的用户体验

确定实用的数据网格路线图

现在,我们已经解释了数据产品的技术方面–它们遵守 Data Mesh 和 FAIR 原则,并具备被视为企业级的属性。 它们应该是有价值的、平衡的,而且应该认识到不断变化的数据环境。 但它们还必须切合实际:不仅需要战略和愿景,还需要路线图和实施计划。 他们需要赞助和资金,否则数据产品根本无法启动。 他们需要一支技术精湛的团队,以适应数据产品的技术和数据足迹,而且他们与组织其他部门的运作和协作方式必须与数据产品团队的运作方式不可分割。

首先,我们要将数据产品的战略和愿景转化为切实可行的路线图。 数据产品的战略和愿景既要雄心勃勃,又要切实可行。 它需要在理想目标和实际现实之间取得平衡。 目标状态应是对现状的挑战,但仍应基于当前的技术能力和组织背景下现实可实现的目标。 实用的数据产品有一个明确的目标状态或最终目标,与其对组织的预期贡献相一致。 这些内容将在后面的章节中详细阐述。

如图 2-9 所示,与目标状态明显相关的是需要一个路线图:一种到达目标状态的方法。

路线图是一项计划,详细说明了数据产品从当前状态到未来理想状态的发展过程,涉及技术(“技术流”)、流程(“工厂流”)、资源和运营模式(“运营模式流”)、沟通计划(“社会化流”),当然还包括相关的时间表。 这显然是一个大课题,第 16 章将提供更多细节。

现在,让我们来解决赞助和资金问题。 认识到数据产品长期性的高级管理人员的积极参与至关重要,而这正是我们赞助商的作用所在。 发起人通常是组织内的高层管理人员或决策者,负责支持数据产品。 他们的支持对于使数据产品与组织更广泛的目标和战略保持一致至关重要。 赞助商的作用不仅仅是认可。 他们在克服组织障碍和在各部门宣传数据产品方面发挥着重要作用。 他们的影响力对于确保组织内不同利益相关者的认同、确保数据产品得到有效整合和利用至关重要。

36\_image\_0.png

图 2-9.

拥有一个具有适当影响力的发起人,对于确保数据产品不会在其他组织优先事项中被搁置或丢失至关重要。 赞助商的作用不仅包括确保资金,还包括确保在整个开发和部署过程中为数据产品提供持续支持。 据推测,有了赞助商,就有了一个可持续的资助机制,也就有了创建和运行可行、实用的数据产品所需的激励机制。 我们在关于运营模式的章节(第 15 章)中也提到了这一点。

一个 “好"的数据产品要有一个有能力的数据产品负责人

获得授权的 DPO 对于数据产品的成功和有效性至关重要。 从这个意义上说,这不是有价值数据产品的具体属性,但它仍然是提供有价值数据产品的必要条件。 事实上,是由 DPO 来决定什么是有价值的。 它们决定了成本/效率与速度/灵活性之间的平衡。 他们在当地的自主权是影响和指导数据产品从产生到生产的决策权的基础。 显而易见:没有获得授权的 DPO,就不可能有可行的数据产品。

第 14 章中对此有详尽的介绍,这里值得深入探讨一下。 DPO 肩负重大责任和权力,负责监督数据产品的开发、整体健康状况、性能以及数据产品与业务需求的战略一致性。 DPO 的职责是多方面的,包括数据产品管理的各个方面,从概念化到实施和持续维护。

问责制是 DPO 作用的一个重要方面。 他们对数据产品产生的结果负责。 这意味着要确保产品符合所有质量和合规标准,并达到预期效果。 他们的责任延伸到所有利益相关者,包括技术团队、业务用户和高级管理层,要求他们对产品的进度和性能保持透明和公开的沟通。

赋予 DPO 的关键权力之一是决定权。 他们有权就数据产品的开发、部署和演变做出关键决策。 这包括有关特性、功能和产品总体方向的决策。 他们的决策权对于在瞬息万变的商业环境中保持产品的实用性和有效性至关重要。

有了这些决定权,获得授权的 DPO 就有了高度的自主权。 这种自主性使他们能够在数据产品的既定范围内独立运作,做出决策并实施促进创新和灵活性的战略。 赋予他们的自主权并非不受约束,而是要与更广泛的组织目标和战略保持一致。

让我们把这个问题具体化一点。 需要明确决策权的一个常见情况涉及为数据产品选择技术工具和平台。 企业经常会有一套首选的工具和平台,并在整个运营过程中强制使用。 不过,数据保护员(或数据产品工程师)可能会找出他们认为对特定数据产品更有效的替代工具。

在这种情况下,如果遵守数据网格原则,则由数据保护官做出决定。 他们有权选择最适合其数据产品需求的工具和技术。 这种自主性对于确保使用最合适、最有效的技术构建数据产品至关重要。

然而,这种决策自主权并不意味着与企业其他部门的隔离。 企业则应把重点放在使其推荐的工具有效、高效和方便用户使用上。 目标应该是创造一种环境,让 DPO 看到使用企业推荐工具的价值,而不是因为这些工具是强制性的,而是因为它们真正满足了他们的需求。

确定数据产品

您需要回答的第一个重要问题可能是:“如何开始构建数据产品? 我们想给你一个非常简单的答案。 但是,尽管我们已经开发了许多数据产品,我们仍然没有保证设计成功的秘诀。 我们能做的就是分享一些基本准则(第 16 章也补充了一些信息)。

与客户交流是关键。 您可能已经在这样做了,但您需要确保询问他们的优先事项,因为他们可能并不熟悉这些优先事项。 您应该确定他们在某个日期之前需要哪些数据,以及是否可以分批交付:v1.0、v1.1、v1.2 等。 考虑让多个客户参与进来,扩大使用范围。

想想领域驱动设计(DDD)。 这是一种流行的软件设计方法,其重点是根据某一领域专家的意见,建立与该领域相匹配的软件模型。 在DD 模式下,软件代码的结构、语言(类名、类方法、类变量)和数据工件应与业务领域相匹配。 如果您有兴趣了解更多有关领域驱动设计的信息,请参阅 Vlad Khononov(O’Reilly)撰写的 Learning Domain-Driven Design 一书。

您需要确定将成为 DPO 的人员(您将在第 14 章中进一步了解 DPO 的职责)。 在这一阶段,他们的职责包括以下任务:

  • 定义数据产品的功能并确定其优先次序

    DPO 根据业务目标和用户需求调整功能;采用敏捷方法进行增量开发,从 MVP 开始;根据持续的用户反馈和性能指标保持持续调整的灵活性,以确保产品有效发展,为利益相关者提供最大价值。

  • 创建和管理产品路线图

    业务运营总监定义清晰的愿景和战略目标,然后将其转化为时间表,并根据其价值、技术可行性以及与业务目标的一致性,对功能和里程碑进行优先排序。

  • 确定优先次序并管理产品积压工作

    DPO 根据项目的价值、可行性和与战略目标的一致性,不断对项目进行完善和排序。

  • 验证并接受产品增量

    DPO 根据预定义的验收标准严格测试和审查每个已完成的功能或增强功能,以确保其符合质量标准和用户要求。

不要煮沸海洋。 以快速实现价值为目标,随时准备迭代。 正如您在数据产品生命周期中所看到的,数据产品的设计就是为了不断演进。 您可以修改第一个数据产品。

总结

至此,我们明白了什么是"好"的数据产品:它遵循 Data Mesh 原则,并与 FAIR 原则保持一致。它是企业级的。它能带来真正的、实实在在的价值。它兼顾了成本、灵活性和速度。它不仅仅是数据。而且,数据产品的所有者和生命周期都已获得授权,可以确定并兑现数据产品的承诺。

下一个显而易见的问题是:“如何构建一个具备所有这些属性的’好’数据产品? 接下来的两章将启动这一进程。 首先,我们将介绍一个贯穿全书的场景,展示如何将这些原则和特性付诸实践,然后我们将深入探讨数据网格及其组成数据产品的架构组件。