书籍
- 1: 实施数据网格
- 1.1: 书籍介绍
- 1.2: 第一部分:基础
- 1.2.1: 第一章:了解数据网格:基础知识
- 1.2.2: 第二章:应用数据网格原则
- 1.3: 第二部分:设计,构建和部署 Data Mesh
- 1.4: 第三部分:设计,构建和部署 Data Mesh
1 - 实施数据网格

Implementing Data Mesh: Design, Build, and Implement Data Contracts, Data Products, and Data Mesh
实施数据网格:设计,构建和实施数据合约,数据产品和数据网格
书籍介绍
随着数据的不断增长和变得更加复杂,组织寻求创新的解决方案来有效地管理他们的数据。数据网格是一种解决方案,它提供了一种在复杂组织中管理数据的新方法。本实用指南提供了有关如何在组织中实施数据网格的分步指导。
在本书中,Jean-Georges Perrin和Eric Broda重点介绍了数据网格的关键组件,并提供了由代码支持的实用建议。数据工程师、架构师和分析师将探索一个简单直观的过程,用于识别关键的数据网格组件和数据产品。您将学习一组一致的接口和访问方法,使数据产品易于使用。
这种方法可确保您的数据产品易于访问,数据网格生态系统易于导航。这本书可以帮助你:
- 识别、定义和构建在企业数据网格中进行互操作的数据产品
- B构建将数据产品绑定在一起的数据网格结构
- 在数据网格中构建和部署数据产品
- 建立组织结构以运营数据产品、数据平台和数据结构
- 了解将数据产品和数据结构整合到数据网格中的创新体系结构
书籍下载
英文 epub 原本下载地址:
https://coderprog.com/implementing-data-mesh-implement-contracts/
翻译说明
翻译方式:
-
采用 vertopal 网站将 epub 文件转为 pdf 文件
注意:不直接从 epub 转为 markdown 格式的原因是 vertopal 转换出来的 markdown 文件有太多乱七八糟的内容,严重影响阅读,手工排版工作量太大。
-
采用 marker 工具从 pdf 转 markdown
转换方式参考我的博客文章: https://skyao.net/post/202408-marker-pdf-to-markdown/
-
然后人工校对 markdown 格式和排版
-
通过 AI 进行翻译
-
快速简单矫正翻译问题
由于时间有限,第3和第5个步骤无法投入太多时间精力,因此翻译质量有限,仅供简单阅读。
1.1 - 书籍介绍

实施 Data Mesh
作者:Jean-Georges Perrin 和 Eric Broda
序言
当我在 2020 年底第一次接触到 Data Mesh 概念时,我对运维领域的最佳实践更加了解,尤其是站点可靠性工程 (SRE) 和分布式系统。 Data Mesh 概念的创建者 Zhamak Dehghani 提出了许多进行分析、机器学习和数据工作的方法,这些方法感觉非常熟悉,而且有点明显,因为它们在软件世界中已经采用了很长时间,例如所有权左移、产品思维、持续集成和持续交付 (CI/CD) 等。
然而,在我花了几周时间进行更深入的挖掘,包括人们在 LinkedIn 和 Twitter 上的帖子中对 Data Mesh 的实际评价之后,不仅仅是文章、演示文稿和播客,在所有事情背后都有一个响亮的问题:好的,但如何? 数据世界总体上还没有做过任何接近 Data Mesh 所要求的工作,试图简单地跳入全新的方式,1)总体上具有破坏性,2)令大多数数据人深恶痛绝….。
由于围绕 Data Mesh 的所有问题,我创建了一个现在超过 10,000 人的社区 (Data Mesh Learning) 和一个播客,以 300 多集 (Data Mesh Radio) 来探索这一点。 因为这个问题仍然是当今 Data Mesh 最相关和最有害的问题:好吧,但如何解决?
从社区的早期开始,Jean-Georges 和 Eric 就一直在帮助人们探索这个问题。 我并不怀念每周都有 15 篇以此为标题的新文章的日子,但我们该如何在我们的组织中真正实施数据网格这一概念呢?
没有确切的答案,因为这就像问一个人如何过上好日子每个人对什么是重要的和什么是有价值的感觉是不同的,每个人的起点都是不同的。 如果你能合理地思考一下,我们如何做 data mesh 是不可能有准确答案的,因为每个组织都是不同的:组织的目标、成熟度、数据能为组织竞争带来什么帮助、组织结构等等。 如果您已经非常分散,但您的数据工作非常孤立,并且在业务线(又名域)之间共享不是现状,那么您必须采取的步骤与高度集中的命令和控制型组织的步骤大不相同。
但希望还是有的。 许多组织已经通过 Data Mesh 方法推动了巨大的价值。 自 Data Mesh 社区成立以来,Jean-Georges 和 Eric 一直在探索哪些模式对于您从今天的位置走向更好的状态真正重要。 当然,还有如何不断变得更好。 因为事情总是不能尽善尽美,但现在已经足够好了。 领导数据网格之旅的人可能需要做出成千上万个决定,但问题是,哪些决定在什么时候重要,为什么重要。
我要强调这一点,因为它实际上可能是第二重要的一点:在 Data Mesh 实施过程中,有_千_个决定要做。 从大局来看,大多数人都不太重要。 但这本书会帮助你专注于哪些决定能提供通往成功的最佳途径,以及哪些决定能提供通往成功的最大筹码。
就像你在院子里干活时选择穿什么衣服一样,这可能不会对你的生活产生什么影响(不过,一定要穿戴好安全装备!)。 但它可能会影响约会或面试的结果,在 Data Mesh 旅程中会有很多问题,您不确定正确的答案。 但这本书将帮助您更好地评估哪些真正重要,以及如何衡量您的方法的成功,以便您在继续追求更好的同时改进它。
使用 Data Mesh 取得成功的途径多种多样,我们已经在数百家公开谈论其发展历程的公司中看到了这一点。 因此,我们需要从这些组织那里了解什么是有效的以及为什么有效,并从中学习。 这就是 Jean-Georges 和 Eric 在这本书中为您所做的。 这是一项非常艰巨的任务,所以他们通过这本书让您的生活变得更加轻松!
在 1000 多次关于 Data Mesh 的对话中,我大概与近 500 人交谈过,但很少有人能像 Eric 和 Jean-Georges 一样,能够弄清什么时候什么事情重要,为什么重要,尤其是能够简明扼要地传达这些信息。 因为沟通是至关重要的,而且他们做得非常好。
同样重要的是,要注意 Data Mesh 文献中反复使用的一个词:旅程。 您不一定非要先做到这一点。 你会学习,最重要的是要意识到你可以尝试、测试和迭代。 这是关于变得更好,而不是变得完美。 千里之行,始于足下。 我们都仍在学习如何做好 Data Mesh,这本书浓缩了更广泛的社区和行业迄今为止所学到的大部分知识。 它可以极大地帮助您更好地使用Data Mesh,并通过专注于重要的事情而不是陷入成千上万个影响较小的决策中来减轻压力。
我还想再次强调,没有精确的玩法。 将您在这里读到的内容,理解决策背后的原因,并根据您的组织进行调整。 如果您想要一种简单的方法,只需将所有数据扔进数据沼泽中即可。 这需要您做一些工作,但我向您保证,Data Mesh 可以为组织带来难以置信的价值,并为领导实施的人员带来难以置信的个人价值和成就感。
最后,亲爱的读者,为了能让你看到精彩的内容,我想给你一个更简洁的警告和鼓励,那就是:你不能照搬别人的蓝图,但你绝对应该深入研究哪些决策是关键的杠杆点。 不要纠结于确切的技术细节 — Data Mesh 是使您的组织能够更好地利用数据的关键驱动力,但它的意义远不止于平台。 要有耐心,在做出不太好的决定时要给自己留有余地,并着眼于不断做出更好的决定。 祝你好运,这将是一段非常艰难的旅程。 :)
Scott Hirleman
Data Mesh Learning 创始人
主持人,Data Mesh Radio
前言
2019 年,Zhamak Dehghani 提出了 Data Mesh 的概念。 她花了 18 个月的时间将自己的想法提炼为 Data Mesh 的四项原则:域所有权、数据即产品、自助式数据平台和(我最喜欢的)联合计算治理。 运动开始了。 它拥有潮水般的力量–没有什么能阻挡它。 她的奠基之作《Data Mesh》(O’Reilly)于 2022 年出版,证实了整个行业向更好模式转变的力量和愿望。 但… 为了实现 Dehghani 的愿景,从业人员需要一本指南–一种构建 data mesh 的实用方法。 我们在 2023 年初承担了这项任务,现在正在向你们交付。 我们希望您会喜欢它。 如果这本书对您来说还不够,请记住,我们俩都可以帮助您实现 Data Mesh!
这本书适合谁?
本书适用于所有对数据网格概念和实施感兴趣的人,无论其专业知识水平如何。 我们非常重视您的关注,并很高兴与您分享我们的见解。 如果您是数据工程师,您将了解 Data Mesh 将如何发展您的工作和任务。 别担心——它会让你的日常生活变得更加有趣。 如果您是一名架构师,您将发现这种软件架构将如何使数据架构受益,并允许您构建更好的数据平台。
如果您是技术领导者,本书将为您提供构建和实施 Data Mesh 所需的所有帮助。 最重要的是,第 III 部分传授了大量有关变更管理和 Data Mesh 社交方面的知识。 如果您是非技术 C 级人员,这本书可能不是您的最佳投资,但它适用于您组织中的所有技术人员。 想想年终礼物、生日、周年纪念日… 你会让人们开心。
各部分和章节概述
本书分为 3 个部分,16 个节奏明快的章节。 第一部分,“基础”,建立了基础知识,并快速回顾了 Dehghani 的工作:
-
第 1 章,“了解 Data Mesh:要点”,概述了 Data Mesh 的基本原则,Data Mesh 是一种现代数据架构范式,可促进去中心化数据所有权,将数据视为产品,并为领域团队实施自助式基础设施。 本章以 Dehghani 的基础工作为基础,重点介绍了 Data Mesh 如何通过实现本地自治和更快的响应时间以及培养创新和协作文化,将敏捷性引入数据管理。
-
第 2 章,“应用 Data Mesh 原则”,总结了 Data Mesh 的关键原则,并重点介绍了这些原则如何应用于数据产品,包括 FAIR(可查找、可访问、可互操作和可重用)产品,以及优质数据产品的构成要素和数据产品的生命周期。 本章的目标是创建实用的 Data Mesh 路线图,将您的战略和愿景转化为可实现的计划,获得高管的支持和资金,赋予熟练的数据产品所有者决策权,并在保持灵活性并与业务目标保持一致的同时吸引客户。
-
第 3 章,“我们的案例研究:Climate Quantum Inc.”,介绍了 Climate Quantum Inc.,这是一家虚构的公司,利用 Data Mesh 功能来解决管理气候数据的复杂性,使其更易于访问、可用和值得信赖。 通过分散数据所有权和使用面向域的架构,Climate Quantum Inc. 旨在简化大量多样气候数据的发现、使用、共享和验证,从而为气候变化带来的多方面挑战提供可扩展的解决方案。
第二部分,“设计、构建和部署 Data Mesh”,重点介绍 Data Mesh 的技术方面:
-
第 4 章,“定义 Data Mesh 架构”,探讨了 Data Mesh 的核心组件,重点介绍了数据产品的架构以及更广泛的 Data Mesh 架构,并重点介绍了各种工件和开发、运行时和运营功能如何组合在一起以创建可发现、可观察和可操作的数据产品。 本章还深入探讨了如何通过 Data Mesh 主干服务、市场和注册表集成这些组件,并以 Climate Quantum Inc. 作为案例研究来说明这些原则在管理复杂气候数据方面的实际应用。
-
第 5 章,“使用数据合约驱动数据产品”,讨论了数据产品的实施,强调了数据合约在通过确保数据质量和服务水平来建立信任方面的作用,并使用 Climate Quantum Inc. 的示例来说明这些概念。 本章探讨了产品思维的原则,详细介绍了数据协定的要素,并介绍了数据服务质量 (Data QoS) 框架,该框架将数据质量维度与服务级别协议相结合,从而促进了标准化、可靠的数据管理方法。
-
第 6 章,“构建您的第一个数据产品”,将指导您完成创建初始数据产品的步骤,方法是了解其组件、利用数据协定、连接数据源和构建终端节点,同时确保集成可观察性、发现和控制服务。 本章强调了数据产品的标准化和模块化,通过使用 sidecar 和开放标准(如 Bitol 项目所倡导的标准)来简化开发和运营。
-
第 7 章,“与体验平面保持一致”,介绍了如何在数据网格中的三个功能区域之间分离职责:数据基础架构的基础架构体验平面、独立数据产品的数据产品体验平面以及用于互连数据产品和管理企业级工具的网格体验平面。 这些领域中的每一个都具有简化组织和减少认知负荷的特定功能。 本章还深入探讨了这些平面如何通信,特别关注用户和系统的反馈回路,这些反馈回路跨越平面传输以提高数据可靠性并为持续改进提供信息。
-
第 8 章,“网格化您的数据产品”,解释了如何在 Data Mesh 中注册、组合和利用多个数据产品,以提高其价值并确保数据质量和治理。 本章还重点介绍与生产者对齐和与使用者对齐的数据产品的关键概念。 最后,您将了解 Data Mesh 如何简化数据沿袭。
第三部分,“Data Mesh 的 GenAI、Teams、运营模式和路线图”,主要关注 Data Mesh 的运维和社交方面:
-
第 9 章,“运行和运维 Data Mesh”,探讨了如何使数据产品可被发现、可观察和安全,强调了 Data Mesh 中数据的动态性质、确保无缝操作所涉及的关键接口和流程,以及通过标准化和自助服务功能增强数据管理的机会,所有这些都最终促进了更敏捷、更高效的数据生态系统。
-
第 10 章,“创建 Data Mesh Marketplace”,通过提出 Data Mesh Marketplace 来解决在不断增长的 Data Mesh 生态系统中寻找数据产品的挑战,与传统数据目录不同,Data Mesh Marketplace 为数据发现、使用和共享提供了一个动态、用户友好的平台,该平台利用自助服务功能并最大限度地减少元数据重复。
-
第 11 章,“建立 Data Mesh 治理”,介绍了动态数据产品中的自助服务功能和嵌入式代理如何促进更敏捷的联合数据治理方法,强调合规性认证,将策略实施分散给数据产品所有者,同时保持集中式策略定义。
-
第 12 章,“了解数据产品供应链”,介绍了数据产品的嵌入式服务和自助服务功能如何支持创建一致、高效且可重复的“数据产品工厂”,并建立类似于现代制造供应链的动态数据供应链生态系统。
-
第 13 章,“集成 Data Mesh 和生成式 AI”,揭示了通过将 Data Mesh 的去中心化奇迹与生成式 AI 的惊人功能相结合,组织可以加速其数据驱动的决策流程,创造一个即使是您的数据产品也拥有使您的业务更智能的大脑的未来!
-
第 14 章,“建立 Data Mesh 团队”,强调,成功的 Data Mesh 实施依赖于 20% 的技术和 80% 的人才,数据产品团队就像社会技术生态系统中的自主“数据产品工厂”,同时与平台交互,使团队能够创建一个繁荣的数据驱动环境。
-
第 15 章,“定义 Data Mesh 运维模式”,介绍了 Data Mesh 如何需要从传统的集中式数据管理转变为分散的、以领域为中心的方法,这涉及创建一个运维模式,使人员、流程和技术保持一致,以在整个组织中高效管理、共享和利用数据产品。
-
第 16 章,“建立实用的 Data Mesh 路线图”,概述了 Data Mesh 实施的实用路线图,强调需要平衡技术、组织文化、数据产品创建和治理,并将其构建为并行工作流(技术、工厂、运维模式、社交),以构建可扩展且高效的 Data Mesh 生态系统。
这本书不是什么
这本书并不是构建 Data Mesh 的唯一秘诀(尽管我们认为它是最好、最正义和领先的)。 有时我们在写这本书时并不总是同意,在阅读某些章节时,你也可能不同意我们。 我们都有不同的想法和观点,所以语气和精神有时会有所不同是很自然的。
本书中使用的约定
本书使用以下排版约定:
-
斜体
指示新术语、URL、电子邮件地址、文件名和文件扩展名。
-
等宽
用于程序列表,以及在段落中引用程序元素,如变量或函数名称、数据库、数据类型、环境变量、语句和关键字。
-
等宽粗体
显示应由用户按字面键入的命令或其他文本。
-
等宽斜体
显示应替换为用户提供的值或由上下文确定的值的文本。 注意 此元素表示一般说明。
1.2 - 第一部分:基础
本书的第一部分为本书的其余部分做了铺垫:在这一部分结束时,你将熟悉我们的术语和用例。
-
第 1 章,“了解 Data Mesh:要点”,概述了 Data Mesh 的基本原则,Data Mesh 是一种现代数据架构范式,可促进去中心化数据所有权,将数据视为产品,并为领域团队实施自助式基础设施。 本章以 Dehghani 的基础工作为基础,重点介绍了 Data Mesh 如何通过实现本地自治和更快的响应时间以及培养创新和协作文化,将敏捷性引入数据管理。
-
第 2 章,“应用 Data Mesh 原则”,总结了 Data Mesh 的关键原则,并重点介绍了这些原则如何应用于数据产品,包括 FAIR(可查找、可访问、可互操作和可重用)产品,以及优质数据产品的构成要素和数据产品的生命周期。 本章的目标是创建实用的 Data Mesh 路线图,将您的战略和愿景转化为可实现的计划,获得高管的支持和资金,赋予熟练的数据产品所有者决策权,并在保持灵活性并与业务目标保持一致的同时吸引客户。
-
第 3 章,“我们的案例研究:Climate Quantum Inc.”,介绍了 Climate Quantum Inc.,这是一家虚构的公司,利用 Data Mesh 功能来解决管理气候数据的复杂性,使其更易于访问、可用和值得信赖。 通过分散数据所有权和使用面向域的架构,Climate Quantum Inc. 旨在简化大量多样气候数据的发现、使用、共享和验证,从而为气候变化带来的多方面挑战提供可扩展的解决方案。
1.2.1 - 第一章:了解数据网格:基础知识
在瞬息万变的企业数据管理领域,数据网格已从一个新兴概念发展成为现代数据架构的基石。 它的崛起标志着企业在处理其数据生态系统日益增长的复杂性和规模方面发生了重大转变。 Zhamak Dehghani 的开创性著作《数据网格》(O’Reilly)阐述了数据网格的基本原理,为数据处理和利用的新时代奠定了基础。 本书以 Dehghani 的原则为基础,旨在弥合理论理解与实际应用之间的差距,将数据网格的原则转化为数据专业人员的实践。 我们认识到,许多读者可能对 Dehghani 的原则并不陌生,因此我们深入探讨,不仅重申了这些概念,还对它们进行了扩展,以展示它们在现实世界中的应用。 对于数据网格的新读者,我们提供了通俗易懂的介绍,确保所有读者都能站在同一起跑线上。 本书以数据网格的核心原则为基础,但又远远超出了这一坚实的基础,说明了如何在企业内有效实施和操作这些原则。 首先,让我们重申 Dehghani 的转型愿景,它基于几项关键原则:
-
数据作为一种产品
数据被视为有价值的产品,由领域团队负责开发和提供适合其特定需求的数据解决方案。
-
去中心化域名所有权
数据责任分配给特定领域的团队,每个团队对其数据的质量、可访问性和管理负责。
-
自服务
这是一个能让领域团队独立管理数据的框架,减少了对集中式数据团队的依赖。
-
联合计算治理
在这种模式下,领域团队根据组织的总体政策,在其职权范围内实施数据管理。
使数据敏捷
这些原则与敏捷软件开发方法的精神不谋而合。 2001 年发表的《敏捷软件开发宣言》至今仍是软件行业的一份重要文件,其核心内容是强调个人与互动、工作软件、客户协作和应对变化。 这些原则通过 scrum 和 kanban 等框架转化为实践,这些框架提倡迭代开发、定期反馈循环以及跨职能团队之间的密切合作。
自《敏捷宣言》发表以来,将敏捷核心原则付诸实践已经过去了 20 多年。 我们现在可以更快、更好、更便宜地交付软件: 麦肯锡咨询公司(McKinsey & Company)的研究表明,“敏捷型组织有 70% 的几率跻身组织健康度的前四分之一,这是衡量长期绩效的最佳指标”。 简而言之,软件工程世界已今非昔比。 同样,Data Mesh 将灵活性引入数据环境,强调分散所有权、响应式数据管理和跨职能协作团队。 正如敏捷提倡自组织团队一样,数据网格提倡面向领域的分散所有权,将数据的力量交到各个领域团队的手中。 在敏捷环境下,客户协作涉及与利益相关者的持续接触,以了解他们不断变化的需求。 同样,Data Mesh 鼓励领域团队与其组织内的数据消费者接触,收集反馈并迭代数据产品,以满足他们的特定要求。
就像敏捷重视工作软件一样,Data Mesh 也重视交付高质量的数据产品。 基于敏捷的用户故事定义了所需的功能;数据产品概述了数据的功能、质量要求和可访问性,使领域团队能够构建和交付为利益相关者提供真正价值的数据产品。 简而言之,Data Mesh 将敏捷实践引入数据,从而使数据变得敏捷!
本地自主性 + 速度 = 敏捷性
数据网格具有多种优势,可应对企业在数据管理方面面临的挑战,特别是在采用本地自主性和速度方面,这反过来又会推动敏捷性。 首先,Data Mesh 倡导地方自治。 传统的集中式方法往往会导致数据团队超负荷工作和决策瓶颈。 与此相反,Data Mesh 赋予各个领域团队对其数据的所有权和责任。 这种权力下放使团队能够更深入地了解其具体的数据需求和要求,从而做出更有效的决策和更快的响应时间。 通过促进本地自治,Data Mesh 使团队能够快速适应不断变化的数据需求,并及时做出数据驱动型决策。 通过本地自治,Data Mesh 可以提高速度,而随着速度的提高,上市时间也会缩短。 Data Mesh 专注于自助式数据基础设施,使领域团队能够独立访问和管理数据。 这消除了有时需要向集中数据团队提出的官僚流程和耗时请求,减少了等待时间,加快了数据开发生命周期。 通过将必要的工具和资源交到数据从业人员手中,Data Mesh 实现了数据产品的快速迭代、实验和交付。 速度的提高使企业能够更有效地利用数据洞察力,在当今快节奏的商业环境中赢得竞争优势。
本地自治带来了速度和灵活性:通过分配数据所有权和促进协作,Data Mesh 使团队能够迅速响应不断变化的业务需求和数据要求。 领域团队可以灵活调整其数据产品,甚至在某些情况下调整基础设施,以满足不断变化的需求,避免僵化的集中式系统的限制。 这种灵活性使企业能够抓住新出现的机遇,实时做出数据驱动的决策,并在竞争中保持领先。 也许敏捷性最有趣的副产品就是建立创新和实验文化。 通过本地自治,鼓励团队探索新思路、测试假设并迭代其数据产品。 这可以培养主人翁意识和责任感,从而激发创造力,推动持续改进。 通过采用数据网格原则,企业可以释放其数据资产的潜力,使团队能够发现有价值的见解、开发创新解决方案并推动业务增长。
解决当今的数据挑战
Data Mesh 及其 “敏捷数据 “承诺将解决哪些问题? 数据孤岛可以弥合吗? 数据质量始终是一项挑战,能否提高数据质量? 数据管理方面的差距能否转化为公认的业务价值驱动力?
弥合数据孤岛
让我们从数据孤岛说起。 数据 “孤岛 “阻碍了数据的访问和协作,使我们难以获得整体视角,也无法充分发挥可用数据的潜力。 它们是现代企业中几乎所有数据从业人员都会遇到的真实、直接和严峻的挑战。
数据孤岛就像汪洋大海中的孤岛,是局限于特定部门或系统内的数据存储库,因此与更广泛的组织数据景观脱节。 这种隔离导致数据生态系统支离破碎,宝贵的洞察力仍未得到开发,企业的集体智慧也未得到充分利用。
这些 “孤岛 “的存在往往源于历史悠久的组织结构、不同的技术平台以及随着时间推移而固化的部门界限。 因此,关键的业务决策往往是根据不完整或过时的信息做出的,导致效率低下、错失良机和竞争优势被削弱。
数据孤岛的后果不仅仅是效率低下,它还会严重阻碍组织内部的协作和创新。 当数据被困在孤岛中时,团队就很难获取有效协作所需的信息。 这种缺乏可访问性和可见性的情况导致工作重复、数据实践不一致,以及普遍的组织脱节感。
在当今数据驱动的商业环境中,如果无法整合来自企业不同部门的数据,就会削弱公司应对市场变化、了解客户需求和优化运营的能力。 数据源、法规和业务实践的多样性使本已错综复杂的数据集成和统一工作更加复杂。
要克服数据孤岛的挑战,就必须采取战略性的协同努力,培养数据共享和协作的文化。 这不仅涉及采用新技术,还涉及组织心态和做法的根本转变。
有鉴于此,Data Mesh 变得非常重要,它为数据管理提供了一个分散但具有凝聚力的框架。 数据网格倡导以领域为导向的数据所有权,使各个团队能够有效地管理和共享数据,同时与组织的总体目标保持一致。 通过采用这种模式,企业可以逐步拆除数据孤岛的障碍,为建立更加集成、敏捷和以数据为中心的组织文化铺平道路。
转向更高质量的数据
随着数据量和种类的增加,确保数据质量和完整性变得越来越困难。 数据质量差会导致错误或糟糕的业务决策、错误的战略,并最终对业务成果产生不利影响。 更糟糕的是,数据的复杂性可能会阻碍合规工作,因为当数据分散且错综复杂时,理解数据隐私法规的细微差别就变得更加困难。 对于全球性组织来说,这一挑战因需要驾驭错综复杂的地区和国际数据法律而更加严峻。
要驾驭这种复杂性,需要采取多方面的方法,将技术、战略和组织文化融为一体。 机器学习(ML)和人工智能等先进技术为分析复杂的数据集、发现模式和产生人类无法识别的洞察力提供了强大的工具。 然而,技术本身并不是万能的,它必须与优先考虑数据管理、质量和集成的强大数据战略相结合。 企业需要培养数据文化,让各部门员工了解数据的重要性,并掌握有效利用数据的技能和工具。
向更敏捷、更灵活的数据架构转变,如 Data Mesh 所倡导的架构,也能起到至关重要的作用。 通过分散数据所有权和管理权,Data Mesh 允许特定领域的团队更有效地处理数据,减少瓶颈并提高对变化的响应速度。 这种方法不仅有助于管理复杂性,还能让团队从数据中获取最大价值,将潜在障碍转化为战略资产。
变革数据管理
最后但并非最不重要的是每个数据从业人员最喜欢的话题:数据治理。
数据治理是现代企业数据管理架构中不可或缺的组成部分,这主要是因为需要遵守监管、隐私和企业安全政策。 有效的治理可确保数据的管理和使用方式符合这些外部和内部要求。
然而,不断增加的监管要求又增加了一层复杂性,欧盟的《通用数据保护条例》(GDPR)、美国的《健康保险可携性和责任法案》(HIPAA)等严格的要求以及其他法规都对数据处理、隐私和保护施加了严格的指导和限制。 要驾驭这个错综复杂的法规网络,不仅需要强大的安全基础设施,还需要对数据管理和治理保持警惕,采取积极主动的方法。
鉴于对违规行为的处罚以及与数据泄露相关的风险,治理不仅是一个合规问题,也是一项重要的业务需求。 在这种不断变化的情况下,数据治理必须敏捷、反应迅速,并与日常数据处理深度融合。
传统上,数据治理通常通过集中模式进行管理。 虽然这种模式提供了统一性和中央控制,但经常导致缓慢和官僚主义的做法,造成瓶颈,阻碍数据的动态使用。 在集中式治理系统中,有关数据访问、质量和安全的决策往往由一个独立的中央机构做出,与数据的使用环境相去甚远。
这种距离会导致治理政策与不同业务部门的实际需求和现实之间效率低下和不协调。 其结果往往是治理模式被视为阻碍而非推动因素,从而减缓了创新和对不断变化的业务和市场需求的响应速度。
如今,数据管理往往被视为一项必须完成的任务,是上级下达的命令,而不是一项能带来内在价值的任务。 数据网格提供了另一种选择。
Data Mesh 通过倡导联合治理模式来应对数据治理方面的挑战,该模式将治理责任赋予最了解数据的数据所有者。 在这种模式中,管理是分散的,每个领域团队负责其数据产品的管理。 这种方法可确保由那些对数据背景、使用和风险有最深入了解的人做出管理决策。 这将使治理实践更加贴切、高效和有效,并与每个领域的具体需求紧密结合。
为了更好地理解 Data Mesh 的联合治理模式,可以将其与美国国家标准协会 (ANSI) 或加拿大标准协会 (CSA) 进行类比–几乎每个国家或地区都有类似的组织。 在这种情况下,ANSI 或 CSA 制定规则和政策,并提供认证程序,使供应商能够确保其产品符合既定标准。 这一认证过程就像一个信任的 “品牌 “或 “标志”。 然后,供应商可以公布其认证状态,向消费者表明其产品符合高标准。
在数据网格治理模式中,一般或范围广泛的政策是集中制定的,类似于 ANSI/CSA 制定产品标准和政策,数据产品所有者 (DPO) 负责实施和报告政策的遵守情况。 DPO 确保其数据产品符合既定的治理标准,一旦符合标准,就可以认证为符合企业的治理标准。
这一认证不仅是组织内部信任和质量的标志,而且还通过授权最接近数据的人员来简化管理流程。 它确保治理不是一个自上而下的官僚程序,而是一种协作性的综合实践,能够提高整个企业的数据价值和安全性。
此外,DPO 最接近数据及其使用案例,在理解和有效管理合规要求方面处于独特的地位。 他们可以发布和更新自己的认证状态,使这些信息在 Data Mesh 生态系统中透明并可访问。
这种方法与传统的集中治理模式形成鲜明对比,后者通常由一个负责监督和管理所有数据活动的中央小组来管理合规性。 虽然这种模式在保持控制和统一性方面有其优势,但也可能导致瓶颈、延误以及治理流程与数据的实际应用脱节。
在联合模式中,合规责任是分散的,可在 DPO 之间培养问责和敏捷的文化。 他们可以更迅速地应对法规或业务需求的变化,更新认证状态,确保其数据产品始终合规。 这不仅能简化管理流程,还能将合规性嵌入数据网格的结构中,使其成为数据产品生命周期中不可分割的一部分,而不是一个外部强制流程。
数据量、多样性和可变性
数据本身的特点如何?
如今,数据创建和消费的速度已经成为企业面临的一个决定性挑战。 数据的快速生成和消耗就像高速行驶的列车,因此必须采用持续、灵活的数据管理方法。
传统的数据基础设施往往难以跟上步伐,导致数据处理和分析出现瓶颈和延误。 我们面临的挑战不仅在于如何存储这些海量数据,还在于如何实时处理这些数据并从中提取价值。 企业需要调整其基础设施、工具和流程,以管理这些海量数据,并有效利用这些数据及时做出决策和提出见解。
Data Mesh 为应对数据速度的挑战提供了令人信服的解决方案。 首先,如前所述,本地自治将决策权–如何处理数据、如何转换数据以及如何最有效和高效地使用数据–下放给最接近数据和最了解数据的人。 如果数据速度加快,决策制定也必须相应提高,而 Data Mesh 提供的本地自主性正是解决这一问题的方法之一。
Data Mesh 的设计本身就是为了高效处理大量高速数据。 它通过分散数据所有权和管理权来实现这一目标。 在数据网格框架中,数据不再是单点管理的集中资产。 取而代之的是,它分布在多个特定领域的团队中,每个团队都配备了工具和自主权,以管理自己的数据生态系统。
这种分散式方法允许分布式团队独立处理数据,从而大大缩短了数据摄取、处理和分析所需的时间。 通过增强领域团队的能力,Data Mesh 可确保数据处理更加灵敏,并与每个领域的具体需求和动态保持一致,从而实现更快、更有效的决策。
现在,本地自治与 Data Mesh 的 “自助服务 “功能相结合。 消费者可以使用标准的、众所周知的、已发布的接口,随时访问数据。 数据提供者可以创建数据产品,只需极少的中央小组参与。 此外,还可按需提供扩展数据产品所需的平台能力。
通过采用 Data Mesh,企业可以将数据速度的挑战转化为机遇,利用快速的数据流推动创新,提升客户体验,并做出更明智、更灵活的业务决策。 简而言之,Data Mesh 可让企业跟上数据的速度、种类和变化。
将原则转化为实践
现在,我们希望您能看到 Data Mesh 的明显优势。 但要实现这些优势,就必须将革命性的数据网格原则付诸实践。 这就是我们认为本书的核心目的。 本书由三个基本目标驱动,每个目标都经过精心设计,以指导专业人员掌握数据网格。
我们的第一个目标是揭开从数据网格理论到实践过渡的神秘面纱。 我们不只是抽象地讨论原则,而是通过现实世界的例子、详细的案例研究和可直接应用于组织环境的实用策略来说明这些原则。
其次,我们的目标是加快您的数据网格之旅。 了解数据网格的复杂性是一回事,高效和有效地应用它们又是另一回事。 本书提供了一整套技术和最佳实践,这些技术和最佳实践是从领先的行业专家和先驱组织中提炼出来的,可帮助您快速实施 Data Mesh。 我们将深入探讨自动化管理、优化数据产品设计以及利用尖端技术扩大 Data Mesh 在企业中的优势等高级主题。
第三,我们的目的是为 Data Mesh 的成功绘制清晰、可行的路线图。 本路线图不仅仅是一个理论指导,它还是一个实用的工具包,可以解决在实施 Data Mesh 过程中遇到的常见挑战和陷阱。 从建立强大的自助服务数据基础设施到培养以数据为导向的企业文化,我们为您提供循序渐进的指导,帮助您驾驭数据网格的复杂性,确保从开始到执行的整个过程顺利、成功。
通过接受这些原则并将其转化为可操作的实践,我们展望未来,企业可以充分利用数据网格的变革力量。 我们相信,采用 Data Mesh 原则可以将数据计划推向前所未有的高度,使企业变得更加灵活、以数据为导向并更具竞争力。
我们撰写本书的愿望源于一个谦逊而大胆的愿景:二十年后,我们希望回顾过去,看到 Data Mesh 是将敏捷方法引入数据管理领域的关键力量。 我们的贡献虽然只是这场大运动中微不足道的一部分,但我们的目标是使企业能够从数据中获得更好、更快、更具成本效益的见解和业务价值。 在本书中,我们试图激励新一代的数据专业人士,为他们提供知识和工具,以彻底改变数据管理实践,并推动他们的组织走向这样一个未来:数据不仅是资产,也是创新和增长的催化剂。
在当今数据驱动的时代,企业在管理和利用数据力量方面面临着无数挑战。 数量庞大、种类繁多的数据源可能会让人应接不暇,就像一条泛滥成灾的河流,让企业难以驾驭。 如何理解这些海量数据、确保其质量以及提取有价值的见解,都构成了重大障碍。
Zhamak Dehghani 的数据网格原理为数据管理提供了一个革命性的愿景。 他们主张分散所有权、自助式数据平台、联合计算管理和跨职能合作。 通过将敏捷原则应用于数据,Data Mesh 促进了本地自主性、速度和敏捷性。 将这些原则付诸实践的组织可以克服数据挑战,释放数据网格的优势,提高数据的可访问性、质量和对不断变化的数据需求的响应能力。
本书的其余部分旨在就以下方面提供实用指导:实施数据网格、建立自助式数据基础设施、培养数据产品思维、实施联合计算数据治理、创建分散的所有权、促进跨职能协作以及推动组织内的知识共享。 我们将讨论几个主题:
-
定义要点
我们将定义数据产品(第 2 章),以及它们如何成为 Data Mesh 生态系统的成员。 我们将介绍我们的案例研究(第 3 章)–应用 Data Mesh 使气候数据易于查找、消费、共享和信任–该案例研究将贯穿全书,用于演示如何实施 Data Mesh 实践。 当然,我们还将提供有关 Data Mesh 架构的观点(第 4 章)。
-
拥抱数据产品思维模式
我们将介绍数据合约(第 5 章)如何使 Data Mesh 生态系统的所有成员都能找到彼此并进行交互。 我们将解释如何鼓励领域团队将数据视为一种产品,为数据产品定义清晰的边界,并建立首个数据产品所需的应用程序接口、文档和支持机制(第 6-8 章)。 最后,我们将介绍一种 “测试和学习 “的思维方式,鼓励团队根据反馈和不断变化的业务需求迭代和改进数据产品,并在每个数据产品团队中促进持续改进和创新的文化。
-
使数据敏捷
然后,我们将介绍 Data Mesh 生态系统中数据产品的核心接口(第 9 章),使数据产品可被发现、观察和操作。 我们将介绍通过发现和可观测性获得的数据产品的关键 “超级能力”:数据网格市场(第 10 章)。 我们还将介绍一种转型方法,该方法以现代现实世界中的实例为蓝本,用委托 “认证 “方法取代传统的数据治理方法(第 11 章),以及一种构建数据生态系统及其数据 “供应链 “的 “工厂 “方法,该方法允许您的数据网格成长和发展(第 12 章)。 最后,生成式人工智能–OpenAI、ChatGPT 及其开源同类产品有望撼动现代企业的根基。 数据网格显然也不例外。 事实上,我们看到了生成式人工智能的实质性和广泛用途,我们将对此进行解释(第 13 章)。
-
创建面向领域的去中心化所有权
我们将介绍实施数据网格所需的 “团队拓扑结构”(第 14 章)。 我们将定义并描述数据网格运行模式的复杂性(第 15 章)。 然后,我们将讨论激励机制和组织结构,使数据网格能够优雅地发展和壮大。
-
创建数据网格路线图
我们将提供一个久经考验的 “路线图”(第 16 章),从战略入手,说明如何实施核心数据产品和 Data Mesh 基本要素,以及如何建立数据产品团队和更广泛的 Data Mesh 运营模式。 我们还将展示如何通过实践社区、定期跨职能会议或数据委员会在领域团队之间建立协作和知识共享渠道。 我们将演示如何在企业内部实现数据网格的社会化,以鼓励团队分享最佳实践、经验教训和数据资产,从而充分利用企业的集体知识和专业技能。
总结
将这些原则付诸实践,企业就能克服数据管理方面的挑战,实现数据网格的优势。 他们可以实现所渴望和需要的本地自主权,赋予数据产品团队对其数据的所有权和控制权,使他们能够以更快的速度运行,利用自助服务基础设施,并实现快速迭代和实验。 最后,他们可以通过促进合作、采用数据产品思维和实施联合计算数据治理来实现敏捷性。 按照这些实用步骤,企业可以转变数据管理方法,充分释放数据资产的潜力。 尽情享受吧!
1.2.2 - 第二章:应用数据网格原则
如图 2-1 所示,最简单的 数据网格 就是一个由交互数据产品组成的生态系统。 在任何生态系统中,都有许多活动部件,每个部件都在一定程度上独立运行,但通过通用标准和通信主干网连接在一起。 理想情况下,数据网格中的数据产品具有一套统一接口的通用技术实现。

图 2-1. 数据网格:由交互式数据产品组成的生态系统
数据网格的基础是数据架构领域的一个概念框架,它强调分散的数据所有权和架构。 它认识到,在大型组织中,数据量巨大且种类繁多,每个业务领域对自身数据都有很大程度的自主权(以及对本地数据的了解和掌握)。 通过分散控制,Data Mesh 使各个域能够管理其数据并做出决策,同时保持整体结构的一致性。 有了这种自主性,就可以更好、更本地化、更快地做出决策,从而提高速度和灵活性。
在数据网格中,“数据产品 “是一个数据包,它自成一体,具有自描述性,并面向特定的业务目的或功能。 数据产品是为实现组织内特定业务目标而精心设计的数据包。 它们不仅仅是数据的集合,而是将数据本身与基本工具、文档和元数据封装在一起的综合单元。 这确保了数据不仅存在,而且可以理解和使用。 每个数据产品都以目的为导向,为满足特定业务需求或解决特定问题而量身定制,使其不仅仅是信息存储库。
数据产品的结构是自足的,这意味着它包含了有效利用所需的一切。 它坚持严格的质量和管理标准,从而确保可靠性、安全性和符合相关法规。 这种全面的方法使数据产品成为组织内值得信赖和依靠的资源。 它们在设计时考虑到了用户的可访问性,提供的界面和文档便于从数据专家到极少专业技术知识的各类用户浏览。
此外,每个数据产品的生命周期都得到了精心管理。 每个数据产品都有指定的所有者,负责维护、更新和整体管理。 这种管理可确保数据产品保持相关性,并随着时间的推移继续提供价值。 对这些数据产品的持续监督和改进是其不断发展的基础,可确保它们与组织的动态需求和目标保持一致。 这种生命周期管理是数据产品的一个重要方面,它使数据产品不仅仅是静态数据集,而是数据网格生态系统中不断发展的资产。
关于 Data Mesh 生态系统,我们将在第 4 章详细介绍。
数据网格原则
正如我们在第 1 章中提到的,Data Mesh 的核心是一套指导原则,其中每项原则都对该框架的有效性和可持续性起着至关重要的作用。 让我们在这里详细介绍一下。
数据作为一种产品
这些原则中的第一条就是将数据视为产品。 在传统的产品管理中,产品要满足需求、有所有者(稍后详述)、有长期路线图(与项目不同,项目有开始和结束时间)。 所有这些特点也适用于数据产品。
这些特征为每个数据产品确立了明确的边界。 这种边界划分描述了一个领域,对于定义数据产品所代表的内容、范围和局限性至关重要。 数据网格中清晰的边界可确保每个数据产品都是更大生态系统中定义明确的实体。 这种明确性有助于人们清楚地了解数据产品的目的,并有助于管理期望值以及适当地引导工作和资源,确保每个数据产品都能有效地发挥其预期作用。
但还不止这些。 在 Zhamak Dehghani 的著作Data Mesh中,她将数据产品描述为可发现、可寻址、可理解、可信和真实、本地可访问、可互操作和可组合、自身有价值以及安全。 我们将在后面的章节中进一步讨论这些具体属性。
去中心化域名所有权
Data Mesh 框架的另一个基本原则是分散域所有权的概念,它能有效地为每个数据产品建立一个授权所有者(和团队)。 该框架的这一方面借鉴了为每个城市街区配备一名专职管理者的理念,该管理者要对街区的福祉进行深入投资和负责。 同样,数据网格中的每个数据产品都有一个所有者,对其性能、质量和是否符合管理标准负责。
获得授权的 DPO 的作用是多方面的。 DPO 的任务是确保数据产品符合具体业务要求和总体治理框架。 这种协调对于保持数据产品的完整性和实用性至关重要,可确保其始终是组织数据环境中的宝贵资产。
自服务数据平台
数据网格概念的第三个核心原则是为消费者和生产者提供自服务能力。
对于数据消费者来说,“自服务 “意味着能够轻松查找、消费和信任数据,而无需第三方(或中央团队或工程小组)的协助。 这通常是作为一个 “市场 “来实现的,它提供一个门户网站(网络/移动网站),将数据产品分组,供消费者使用。
现在,我想简单说一下 “市场 “这个词:与数据目录相比,市场的独特之处在于它既提供消费者功能,也提供生产者功能。 通常所说的 “双面市场 “*既能让消费者找到数据,也能让数据生产者轻松发布数据。 从这个意义上说,市场的生产者能力也是自助式的。 数据网格应使任何人(在遵守正常安全规定的前提下)都能轻松发布数据产品。
数据网格中的自助服务功能不仅能增强用户的能力,还能培养创新和敏捷的文化。 它使个人能够利用数据满足其特定需求,鼓励实验和个性化分析。 这种功能减少了通常与集中式数据系统相关的瓶颈问题,因为在集中式数据系统中,数据访问和分析请求可能会延缓决策进程。
联合计算治理
指导 Data Mesh 框架的最后一项原则是联合计算治理,它指的是一种分散的方法,用于管理和执行组织内不同领域或团队的数据策略、标准和质量。
联合治理将这些职责分配给特定领域的团队,而不是由一个集中的数据治理团队来实施规则和标准。 每个团队在遵守组织层面制定的总体原则的同时,管理自己的数据。 尽管数据所有权是分散的,但联邦计算治理确保有一个统一的框架来管理、使用和共享数据。
目前,可以说 Data Mesh 为改进数据管理提供的机会还处于起步阶段。 因此,实施联合计算治理需要微妙的平衡。 这涉及到创建足够强大的治理结构,以确保一致性和合规性,同时又足够灵活,以适应不同数据产品的独特需求和环境。 这种平衡是营造创新环境的关键所在,在这种环境中,创新可以蓬勃发展,同时又不会损害对具有凝聚力的数据生态系统至关重要的标准和协议。
定义 “优质 “数据产品
如前所述,数据网格是一个数据产品生态系统。 实际上,数据产品是任何数据网格的基础构件,也是不可分割的最小单位,类似于 “数据量子”。 显然,数据产品至关重要,但 “好 “数据产品的定义是什么? 如图 2-2 所示,构成 “好 “数据产品的属性有很多,包括技术、业务、易用性和其他特征。

定义有原则的数据产品
那么,从哪里开始呢? 让我们从一个简单、也许显而易见的声明开始:好的数据产品遵守 Data Mesh 原则。 让我们来看看这些原则,并将它们应用到数据产品中。
首先,好的数据产品应与分散的领域所有权相一致:它们应与一个边界清晰的领域(无论大小)相一致,并有一个获得授权的所有者。 其次,好的数据产品顾名思义是产品而不是项目。 好的数据产品和其他产品一样,都有一个生命周期、明确的消费者和清晰的价值定位。 好的数据产品是自助式的,这意味着用户可以从数据产品中获得他们需要的东西,而无需第三方的过度参与。 好的数据产品有一个联合治理机制,为 DPO 及其团队在数据产品层面提供地方自主权和决策权。 这也意味着 DPO 及其团队有责任确保其数据产品符合企业准则和标准。
定义公平的数据产品
好的数据产品还应遵守 FAIR 原则。 数据应该是
- 可查找
- 无障碍
- 互操作性
- 可重复使用
根据 FAIR,“原则强调机器可操作性(即计算系统在没有或极少人类干预的情况下查找、访问、互操作和重复使用数据的能力),因为随着数据量、复杂性和创建速度的增加,人类越来越依赖于计算支持来处理数据”。
让我们详细阐述这些原则,并将其应用到数据产品中。 _可查找性_是 FAIR 原则的第一条。 数据产品要想有价值,就必须能在企业更广泛的数据范围内被轻松发现。
_可访问性_是另一个关键原则(请注意,我们使用 “可访问性*“是指一般意义上的可访问性–易于使用,而不是指满足用户特定的可访问性需求)。 数据仅仅可查找是不够的:一旦被找到,数据产品还必须易于访问。 可访问性包括提供全面的文档,解释如何使用数据,以及确保数据可以轻松集成到各种应用程序和工作流程中。 好的数据产品应该像设计精良的软件应用程序一样简单易用,并有明确的说明和支持。
_互操作性_是 FAIR 原则的一个重要方面。 这是指数据产品协同工作和有效整合的能力。 实际上,这意味着应使用标准数据格式和协议创建数据产品。 例如,如果一个数据产品使用 XML 格式,而另一个使用 JSON 格式,那么就应该有相应的工具或服务,使这些不同的格式能够无缝地结合在一起使用。 同样,互操作性也可能意味着使用通用标准(如 SQL 或 RESTful API)或通用标识符。 这种互操作性对于组合和利用各种来源的数据至关重要。
第四个原则是_重复使用_,重点是在多种情况下应用数据的能力。 这一原则对于最大化数据价值尤为重要。 设计成模块化和可重复使用的数据产品可用于不同的项目和应用。 例如,包含客户人口信息的数据产品可用于营销团队的营销活动规划、销售团队的销售策略制定以及产品开发团队的市场分析。
除了这些技术方面的问题,遵守 FAIR 原则还涉及到培养一种合作和数据共享的文化。 这种文化转变对于打破孤岛和鼓励重复使用数据产品至关重要。 这意味着要推广一种组织思维,将数据视为可用于多种目的的共享资源。
总之,数据网格中的 “好 “数据产品是指那些 FAIR 数据产品:可查找、可访问、可互操作、可重用。 这些原则确保数据不仅得到存储,还得到积极的管理和使用,从而为组织增值。 遵循 FAIR 原则的数据产品不仅仅是信息存储库,它们还能转化为动态资产,推动整个企业的创新和决策制定。
定义企业级数据产品
FAIR 原则为理解 “优质” 数据产品提供了一个视角。 但是,在企业中,怎样的数据产品才算 “好 “产品呢? 或者更具体地说,“好的 “企业级数据产品的定义是什么? 在企业级数据产品领域,有几个关键属性共同决定了产品的质量和有效性。 这些属性包括安全性、可靠性、可观测性、可操作性、可部署性和全面的文档,形成了一个有凝聚力的结构,可确保数据产品在组织内的价值。
实际上,企业级数据产品的优势在于其关键属性的无缝集成。 安全性、可靠性、可观察性、可操作性、可部署性和全面的文档不是孤立的,而是相互关联的,每个方面都对产品的整体功能和价值起着至关重要的作用。 满足这些要求的产品不仅仅是一个数据存储库,更是一种能推动业务效率、创新和决策制定的动态资产。 要创建符合企业环境严格要求的数据产品,了解这些属性如何相互作用和相互支持至关重要。
在这些企业级属性中,安全 可能是最重要的。 企业级数据产品必须能够抵御未经授权的访问和违规行为,确保所保存数据的机密性和完整性。 这种安全性不仅关系到信息安全,还关系到维护用户信任和遵守监管标准,如 GDPR 或 HIPAA。 在这一过程中,实施强大的加密、访问控制和定期安全审计是不可或缺的,这将为潜在的网络威胁建立一道坚固的屏障。
然而,仅有安全是不够的。 数据产品的可靠性同样重要。 用户需要相信数据产品在任何时候都能提供准确、一致的信息。 确保可靠性包括实施验证检查和错误检测算法,以及保持数据的高可用性。 这就是可靠性概念与安全性概念的交叉点:安全的数据产品本质上更加可靠,因为它能防止数据被篡改和丢失。
_可观察性_扩展了可靠性的概念。 这关系到能否监控数据产品的健康状况和性能。 通过使用工具跟踪响应时间和错误率等各种指标,企业可以主动管理数据产品的健康状况或数据质量。 这种积极主动的管理对保持产品的可靠性起着至关重要的作用,因为它可以在潜在问题升级之前及早发现和解决。
与可观察性密切相关的是_可操作性_方面。 操作性强的数据产品更易于管理和操作。 这涉及简化数据产品生命周期管理的功能,包括部署、扩展、更新和故障排除。 高可操作性可确保产品在整个生命周期内保持功能性和有效性,以最小的干扰适应不断变化的要求,从而支持产品的可靠性。
_可部署性_是另一个关键属性,尤其是在动态业务环境中。 高度可部署的数据产品可轻松实施并集成到各种业务流程和技术环境中。 无论是扩大规模以适应业务增长,还是与新系统和应用程序集成,这种灵活性对于跟上企业不断变化的需求都至关重要。
所有这些特性的基础是_全面的文档_。 文档是数据产品的支柱,可明确说明数据产品的使用、管理和集成。 它包括从用户指南和 API 文档到操作程序和架构图的所有内容。 良好的文档记录不仅有助于有效利用数据产品,还能确保符合监管标准,便于审计和合规检查。
这些属性之间的相互作用创造了一个整体的企业级数据产品。 例如,健全的文档可通过概述精确的数据处理程序来提高安全性,而可观测性则可通过确定预测性维护需求来为可靠性战略提供信息。 同样,结构合理的文档通常也便于操作,为管理和更新数据产品提供了明确的指导。
定义有价值的数据产品
俗话说,“爱美之心人皆有之”。 尽管如此,我们还是可以利用数据产品的一些客观特征来清晰明确地确定其价值。 首先,有价值的数据产品从根本上说是由其相关性和实用性决定的。 此类产品的主要目的是解决具体的业务需求或问题,使其成为知情决策和洞察力生成的重要工具。 其价值与其在解决实际业务问题或提高运营效率方面的实际应用直接相关。 因此,衡量一个数据产品是否有用的标准是,它是否能够促进行动、支持决策或提供直接适用于用户需求的见解。
质量和可靠性是有价值的数据产品不可或缺的属性。 这些属性不仅包括数据的准确性、一致性和完整性,还包括数据的及时性和与当前业务场景的相关性。 此外,可靠性还包括数据产品的技术方面,包括其性能,如处理速度和可用性。 确保高质量和高可靠性至关重要,因为这些因素会直接影响数据产品在操作和决策过程中的可信度和可靠性。
可用性是决定数据产品价值的关键因素:如果数据产品过于复杂或不直观,那么无论基础数据质量如何,其潜在效用都会降低。 因此,数据产品的设计和界面应便于使用,以确保其目标用户能够有效地加以利用。 与此稍有关联的是互操作性,换句话说,数据产品从操作角度来看也是可用的。 一个有价值的数据产品不仅要能独立运行,还要能与其他数据产品无缝集成。 这种互操作性对于全面分析和洞察力的产生至关重要,因为它允许对不同领域的数据进行组合和分析。 此外,遵守监管要求和安全标准也是不容商量的。 确保数据隐私、遵守 GDPR 或 HIPAA 等法规以及维护稳健的安全协议是数据产品完整性和价值的基础。
最后,可扩展性和可维护性是有价值数据产品的关键方面。 它应能处理不断增加的数据量或用户需求,而无需进行重大的重新设计或返工。 除可扩展性外,可维护性–数据产品是否易于更新、修改或修复–对其长期实用性也至关重要。 这包括产品根据用户反馈和不断变化的业务需求进行演变的能力,确保产品长期保持相关性和价值。 与组织的战略目标保持一致并为业务目标做出贡献–无论是通过降低成本、创造收入还是风险管理–都能巩固数据产品在组织生态系统中的价值。
定义平衡数据产品
传统上,IT 组织–尤其是那些高度集中的组织–在很大程度上倾向于优化成本控制。 当信息技术与业务成果联系不紧密或仅有间接联系时,成本控制–注重效率–就很常见。 这种关注虽然在财务上是谨慎的,但往往与企业对速度和灵活性日益增长的需求相冲突,而在当今快节奏的市场环境中,速度和灵活性越来越重要。 有价值的数据产品的一个关键属性就是在成本和效率与速度和灵活性之间实现平衡。
然而,转换一下视角就会发现一个有趣的动态。 事实上,经验表明,优先考虑速度和敏捷性并不一定会影响成本效益,通过专注于这些方面,企业可以实现更高效的产品交付,从长远来看可以节约成本。 这种效率源于快速适应市场变化、客户需求和新技术进步的能力,从而减少了耗费在冗长项目周期上的时间和资源。
不过,这确实建议采用渐进式开发方法,将数据产品或其组成能力分解成较小的、可管理的交付单元。 这样就可以根据反馈和不断变化的要求进行快速迭代和调整。 使用原型和最小可行产品(MVP)是这一方法的核心,使团队能够在不投入大量资源进行全面开发的情况下测试想法和概念。 显然,刚开始使用 Data Mesh 的组织应该考虑这种方法。
渐进式方法有几个好处。 首先,由于可以在更短的周期内实施和测试变更,因此可以更快地响应市场需求和客户反馈。 其次,它降低了与大型数据产品相关的风险,因为可以在过程中进行调整,避免了完全致力于单一、僵化的交付计划所带来的代价高昂的隐患。
定义现代数据产品–不仅仅是"常规"数据
数据网格中的数据产品通常被认为只围绕"传统"数据:数据库、表格等。 不过,这种观点有一定局限性,甚至可能已经过时。 虽然这类数据确实是基础要素,但数据产品包含的人工制品要广泛得多。
在这种情况下,_人工制品_是指 DPO 决定向数据产品用户或更广泛受众提供的任何对象、实体或项目,如图 2-3 所示。

图 2-3. 数据产品人工制品
这些工件是数据产品的 “内部结构”,可能包括
-
“常规"数据,如数据库、表格或文件。 我们称之为 “常规 “数据,因为它是当今数据产品中最常见的人工制品类型。 数据产品可能会继续优先集成和管理数据库、表格和文件等传统数据形式,因为这些结构化数据类型是大多数分析和操作流程的基础。
-
图像、视频和音频,在我们的现代多模态数据环境中已变得司空见惯。 这些数据形式提供了丰富的上下文信息,可显著增强分析、ML 模型和决策过程。 随着企业致力于获得更全面的洞察力,无缝处理和分析结构化和非结构化数据(如可视化内容)的能力变得越来越重要。
-
文档,如 PDF 或其他面向文本的非结构化数据。 - 指南,可帮助消费者了解或消费数据产品。 不言而喻,清晰而全面的文档有助于用户了解如何有效地利用每个人工制品。 当然,这些文件应易于获取和理解,以满足不同专业水平的用户的需求。
-
模型,包括较早的人工智能/ML 模型以及较新的生成式人工智能大型语言模型。 在许多现代数据产品中,数据被用于训练或微调 ML 或 AI 模型。 这些模型在作为人工制品并提供给用户使用时,可以为数据产品中的数据提供独特的见解。
-
经过审核(安全、性能良好等)的查询,可简化数据产品的使用。 这些可以包括预编写的 SQL 查询或其他访问方法,为用户提供随时可用的洞察力。 这些查询对那些可能不具备深厚的专业技术知识,但需要从数据产品中获取有意义信息的用户尤为重要。 数据流代表了数据产品的一个动态方面,用户可以订阅数据产品中的特定主题,并在数据发生变化或更新时收到通知。
-
报告,提供一套预先格式化的数据产品输出结果。 - 演示如何有效使用产品中的数据或展示数据产品中使用的处理逻辑的笔记本和程序。 这些计划可能包括为数据产品用户提供 “入门套件”,让他们了解如何与数据互动并从中获取价值。 这些程序可以展示从数据中得出的关键见解或分析,为用户的探索提供一个良好的开端。
-
元数据,或有关数据产品、其内容、字段和格式的数据。 - 转换,包括管道和其他工作流程工具,用于接收数据并将其转换为消费者可用和方便的形式。
选择要纳入数据产品的人工制品是一项重要决定。 它反映了 DPO 对目标受众的需求和偏好的理解。 通过精心整理这些人工制品,所有者可以大大提高数据产品的可用性和吸引力。 这通常需要深入了解人工制品的技术方面和数据产品中的用户旅程。
现在,什么是现代数据产品? 它是一种数据产品,可以超越"常规"数据,并认识到不断变化的数据环境和我们所处的多模态数据世界。 它是一种数据产品,包含全面的数据和工具,包括人工智能模型、笔记本或程序,使复杂的数据洞察成为可能。 它是一款数据产品,展示了数据管理从静态存储到动态互动平台的演变过程,使用户能够从数据中获得更大的价值和洞察力。
定义实用的数据产品生命周期
当你在考虑一个产品时,你就在隐含地考虑它的生命周期。 让我们考虑一下您的汽车(如果您没有汽车,您可能认识一个有汽车的人)。 在你购买之前,制造商需要一定的时间来设计、开发和测试。 在某一机型上市销售的同时,制造商还在继续开发新的机型。 丰田凯美瑞就是一个很好的例子,该车于 1979 年作为 Celica Camry 推出,45 年后的今天仍在销售。 下面我们就以凯美瑞为例进行说明。
在传统的数据工程中,通常由一个集中的团队负责构建数据集。 如 [图 2-4](file:///opt/Koodo Reader/resources/app.asar/build/index.html#fig_4_data_product_lifecycle_early_stages)所示,该团队会交付数据集;或者支持数据集,或者将数据集移交给运营团队,直到数据集退役。 事实上,大多数数据项目都是这样的:经过一段时间的开发后,项目就会进入生产阶段,直至退出。 由于没有替代数据集,退休往往是不可能的。 回想起我们的凯美瑞,就好像我们还在驾驶一辆 20 世纪 90 年代的汽车。

图 2-4. 数据产品生命周期(早期阶段)
如果要建立一个新的数据集来取代第一个版本,过渡往往非常困难。 如图 2-5 所示,数据集正在从版本 1 向版本 2 演进,如果没有足够的时间来促进过渡,就会给消耗团队带来巨大的负担。 过渡时期可能会很艰难,会有很多变化。
没有足够的时间 图 2-5. 数据产品生命周期(数据集的新版本)
为了缓和数据集两个版本之间的过渡,团队可以在其中包含一个支持期或下降期,在此期间同时提供两个数据集,如图 2-6 所示,数据集正在从版本 1 演进到版本 2。

图 2-6. 数据产品生命周期(在数据集版本之间有一个缩减期)
这些设计非常适合拥有中心团队的组织。 交付数据集后,开发团队可能会转向另一个项目。 这样做的缺点是,不能保证负责 v2 项目的团队与负责 v1 项目的团队相同,因此无法充分利用在 v1 项目中获得的专业知识。
想象一下,你可以迭代改进你的产品,提供增量价值,而不是大爆炸式的转变。 回到凯美瑞的例子,2014 款和 2015 款之间有一个渐进的转变,但这并不是一个重大的车型变化(比如 2016 款和 2017 款之间的变化)。 使用语义版本法,凯美瑞 2014 款可能是 v50.14.0,2015 款可能是 v50.15.0;然而,2017 款将是 v70.0.0,这表明发生了重大变化。
如图 2-7 所示,这种方法不排除需要进行重大(和破坏性)改动。 尽管如此,您仍然可以让您的开发团队集中精力,完成任务,并增长他们的领域专业知识。 开发团队不必那么庞大,但更重要的是,您将看到持续的关注、不断增长的领域专业知识以及对单一、一致的消费者体验的持续改进所带来的好处。 这一流程完全符合所有现代(敏捷)软件开发战略。

图 2-7. 数据产品生命周期(数据集的增量和新版本)
如图 2-8 所示,随着数据集的构建和增长,它们会保持与同一领域一致,提供类似的用户体验。 此外,数据合同(将在第 5 章中详细阐述)将为您公开的数据集提供大量信息。

图 2-8 新版本数据集的用户体验
确定实用的数据网格路线图
现在,我们已经解释了数据产品的技术方面–它们遵守 Data Mesh 和 FAIR 原则,并具备被视为企业级的属性。 它们应该是有价值的、平衡的,而且应该认识到不断变化的数据环境。 但它们还必须切合实际:不仅需要战略和愿景,还需要路线图和实施计划。 他们需要赞助和资金,否则数据产品根本无法启动。 他们需要一支技术精湛的团队,以适应数据产品的技术和数据足迹,而且他们与组织其他部门的运作和协作方式必须与数据产品团队的运作方式不可分割。
首先,我们要将数据产品的战略和愿景转化为切实可行的路线图。 数据产品的战略和愿景既要雄心勃勃,又要切实可行。 它需要在理想目标和实际现实之间取得平衡。 目标状态应是对现状的挑战,但仍应基于当前的技术能力和组织背景下现实可实现的目标。 实用的数据产品有一个明确的目标状态或最终目标,与其对组织的预期贡献相一致。 这些内容将在后面的章节中详细阐述。
如图 2-9 所示,与目标状态明显相关的是需要一个路线图:一种到达目标状态的方法。
路线图是一项计划,详细说明了数据产品从当前状态到未来理想状态的发展过程,涉及技术(“技术流”)、流程(“工厂流”)、资源和运营模式(“运营模式流”)、沟通计划(“社会化流”),当然还包括相关的时间表。 这显然是一个大课题,第 16 章将提供更多细节。
现在,让我们来解决赞助和资金问题。 认识到数据产品长期性的高级管理人员的积极参与至关重要,而这正是我们赞助商的作用所在。 发起人通常是组织内的高层管理人员或决策者,负责支持数据产品。 他们的支持对于使数据产品与组织更广泛的目标和战略保持一致至关重要。 赞助商的作用不仅仅是认可。 他们在克服组织障碍和在各部门宣传数据产品方面发挥着重要作用。 他们的影响力对于确保组织内不同利益相关者的认同、确保数据产品得到有效整合和利用至关重要。

图 2-9.
拥有一个具有适当影响力的发起人,对于确保数据产品不会在其他组织优先事项中被搁置或丢失至关重要。 赞助商的作用不仅包括确保资金,还包括确保在整个开发和部署过程中为数据产品提供持续支持。 据推测,有了赞助商,就有了一个可持续的资助机制,也就有了创建和运行可行、实用的数据产品所需的激励机制。 我们在关于运营模式的章节(第 15 章)中也提到了这一点。
一个 “好"的数据产品要有一个有能力的数据产品负责人
获得授权的 DPO 对于数据产品的成功和有效性至关重要。 从这个意义上说,这不是有价值数据产品的具体属性,但它仍然是提供有价值数据产品的必要条件。 事实上,是由 DPO 来决定什么是有价值的。 它们决定了成本/效率与速度/灵活性之间的平衡。 他们在当地的自主权是影响和指导数据产品从产生到生产的决策权的基础。 显而易见:没有获得授权的 DPO,就不可能有可行的数据产品。
第 14 章中对此有详尽的介绍,这里值得深入探讨一下。 DPO 肩负重大责任和权力,负责监督数据产品的开发、整体健康状况、性能以及数据产品与业务需求的战略一致性。 DPO 的职责是多方面的,包括数据产品管理的各个方面,从概念化到实施和持续维护。
问责制是 DPO 作用的一个重要方面。 他们对数据产品产生的结果负责。 这意味着要确保产品符合所有质量和合规标准,并达到预期效果。 他们的责任延伸到所有利益相关者,包括技术团队、业务用户和高级管理层,要求他们对产品的进度和性能保持透明和公开的沟通。
赋予 DPO 的关键权力之一是决定权。 他们有权就数据产品的开发、部署和演变做出关键决策。 这包括有关特性、功能和产品总体方向的决策。 他们的决策权对于在瞬息万变的商业环境中保持产品的实用性和有效性至关重要。
有了这些决定权,获得授权的 DPO 就有了高度的自主权。 这种自主性使他们能够在数据产品的既定范围内独立运作,做出决策并实施促进创新和灵活性的战略。 赋予他们的自主权并非不受约束,而是要与更广泛的组织目标和战略保持一致。
让我们把这个问题具体化一点。 需要明确决策权的一个常见情况涉及为数据产品选择技术工具和平台。 企业经常会有一套首选的工具和平台,并在整个运营过程中强制使用。 不过,数据保护员(或数据产品工程师)可能会找出他们认为对特定数据产品更有效的替代工具。
在这种情况下,如果遵守数据网格原则,则由数据保护官做出决定。 他们有权选择最适合其数据产品需求的工具和技术。 这种自主性对于确保使用最合适、最有效的技术构建数据产品至关重要。
然而,这种决策自主权并不意味着与企业其他部门的隔离。 企业则应把重点放在使其推荐的工具有效、高效和方便用户使用上。 目标应该是创造一种环境,让 DPO 看到使用企业推荐工具的价值,而不是因为这些工具是强制性的,而是因为它们真正满足了他们的需求。
确定数据产品
您需要回答的第一个重要问题可能是:“如何开始构建数据产品? 我们想给你一个非常简单的答案。 但是,尽管我们已经开发了许多数据产品,我们仍然没有保证设计成功的秘诀。 我们能做的就是分享一些基本准则(第 16 章也补充了一些信息)。
与客户交流是关键。 您可能已经在这样做了,但您需要确保询问他们的优先事项,因为他们可能并不熟悉这些优先事项。 您应该确定他们在某个日期之前需要哪些数据,以及是否可以分批交付:v1.0、v1.1、v1.2 等。 考虑让多个客户参与进来,扩大使用范围。
想想领域驱动设计(DDD)。 这是一种流行的软件设计方法,其重点是根据某一领域专家的意见,建立与该领域相匹配的软件模型。 在DD 模式下,软件代码的结构、语言(类名、类方法、类变量)和数据工件应与业务领域相匹配。 如果您有兴趣了解更多有关领域驱动设计的信息,请参阅 Vlad Khononov(O’Reilly)撰写的 Learning Domain-Driven Design 一书。
您需要确定将成为 DPO 的人员(您将在第 14 章中进一步了解 DPO 的职责)。 在这一阶段,他们的职责包括以下任务:
-
定义数据产品的功能并确定其优先次序
DPO 根据业务目标和用户需求调整功能;采用敏捷方法进行增量开发,从 MVP 开始;根据持续的用户反馈和性能指标保持持续调整的灵活性,以确保产品有效发展,为利益相关者提供最大价值。
-
创建和管理产品路线图
业务运营总监定义清晰的愿景和战略目标,然后将其转化为时间表,并根据其价值、技术可行性以及与业务目标的一致性,对功能和里程碑进行优先排序。
-
确定优先次序并管理产品积压工作
DPO 根据项目的价值、可行性和与战略目标的一致性,不断对项目进行完善和排序。
-
验证并接受产品增量
DPO 根据预定义的验收标准严格测试和审查每个已完成的功能或增强功能,以确保其符合质量标准和用户要求。
不要煮沸海洋。 以快速实现价值为目标,随时准备迭代。 正如您在数据产品生命周期中所看到的,数据产品的设计就是为了不断演进。 您可以修改第一个数据产品。
总结
至此,我们明白了什么是"好"的数据产品:它遵循 Data Mesh 原则,并与 FAIR 原则保持一致。它是企业级的。它能带来真正的、实实在在的价值。它兼顾了成本、灵活性和速度。它不仅仅是数据。而且,数据产品的所有者和生命周期都已获得授权,可以确定并兑现数据产品的承诺。
下一个显而易见的问题是:“如何构建一个具备所有这些属性的’好’数据产品? 接下来的两章将启动这一进程。 首先,我们将介绍一个贯穿全书的场景,展示如何将这些原则和特性付诸实践,然后我们将深入探讨数据网格及其组成数据产品的架构组件。
1.3 - 第二部分:设计,构建和部署 Data Mesh
现在,您已经了解了基本概念,可以开始设计和构建 Data Mesh 组件的旅程了。大部分工作可能由软件工程师在数据工程师和架构师的指导下完成。本节将针对这两类工程师(软件和数据),因此将解释数据工程师可能不熟悉的术语。
-
第 4 章,“定义 Data Mesh 架构”,探讨了 Data Mesh 的核心组件,重点介绍了数据产品的架构以及更广泛的 Data Mesh 架构,并重点介绍了各种工件和开发、运行时和运营功能如何组合在一起以创建可发现、可观察和可操作的数据产品。 本章还深入探讨了如何通过 Data Mesh 主干服务、市场和注册表集成这些组件,并以 Climate Quantum Inc. 作为案例研究来说明这些原则在管理复杂气候数据方面的实际应用。
-
第 5 章,“使用数据合约驱动数据产品”,讨论了数据产品的实施,强调了数据合约在通过确保数据质量和服务水平来建立信任方面的作用,并使用 Climate Quantum Inc. 的示例来说明这些概念。 本章探讨了产品思维的原则,详细介绍了数据协定的要素,并介绍了数据服务质量 (Data QoS) 框架,该框架将数据质量维度与服务级别协议相结合,从而促进了标准化、可靠的数据管理方法。
-
第 6 章,“构建您的第一个数据产品”,将指导您完成创建初始数据产品的步骤,方法是了解其组件、利用数据协定、连接数据源和构建终端节点,同时确保集成可观察性、发现和控制服务。 本章强调了数据产品的标准化和模块化,通过使用 sidecar 和开放标准(如 Bitol 项目所倡导的标准)来简化开发和运营。
-
第 7 章,“与体验平面保持一致”,介绍了如何在数据网格中的三个功能区域之间分离职责:数据基础架构的基础架构体验平面、独立数据产品的数据产品体验平面以及用于互连数据产品和管理企业级工具的网格体验平面。 这些领域中的每一个都具有简化组织和减少认知负荷的特定功能。 本章还深入探讨了这些平面如何通信,特别关注用户和系统的反馈回路,这些反馈回路跨越平面传输以提高数据可靠性并为持续改进提供信息。
-
第 8 章,“网格化您的数据产品”,解释了如何在 Data Mesh 中注册、组合和利用多个数据产品,以提高其价值并确保数据质量和治理。 本章还重点介绍与生产者对齐和与使用者对齐的数据产品的关键概念。 最后,您将了解 Data Mesh 如何简化数据沿袭。
1.4 - 第三部分:设计,构建和部署 Data Mesh
有了基本的数据网格后,如何成功使用生成式人工智能(GenAI),并建立团队、运维模式和路线图,以建立、培育和发展数据网格?本部分详细介绍了使数据产品可发现、可观察和安全的流程,以促进更敏捷、更高效的数据生态系统;提出了数据发现和共享的动态平台,同时最大限度地减少元数据的重复;解释了通过自助服务能力和认证进行分散、敏捷治理的方法;介绍了创建高效 “数据产品工厂 ”的方法;探讨了如何将 Data Mesh 与 GenAI 结合以增强决策制定;重点介绍了实施的社会技术方面;概述了分散、以领域为中心的方法;并提供了结构化、多流的实施计划。
-
第 9 章,“运行和运维 Data Mesh”,探讨了如何使数据产品可被发现、可观察和安全,强调了 Data Mesh 中数据的动态性质、确保无缝操作所涉及的关键接口和流程,以及通过标准化和自助服务功能增强数据管理的机会,所有这些都最终促进了更敏捷、更高效的数据生态系统。
-
第 10 章,“创建 Data Mesh Marketplace”,通过提出 Data Mesh Marketplace 来解决在不断增长的 Data Mesh 生态系统中寻找数据产品的挑战,与传统数据目录不同,Data Mesh Marketplace 为数据发现、使用和共享提供了一个动态、用户友好的平台,该平台利用自助服务功能并最大限度地减少元数据重复。
-
第 11 章,“建立 Data Mesh 治理”,介绍了动态数据产品中的自助服务功能和嵌入式代理如何促进更敏捷的联合数据治理方法,强调合规性认证,将策略实施分散给数据产品所有者,同时保持集中式策略定义。
-
第 12 章,“了解数据产品供应链”,介绍了数据产品的嵌入式服务和自助服务功能如何支持创建一致、高效且可重复的“数据产品工厂”,并建立类似于现代制造供应链的动态数据供应链生态系统。
-
第 13 章,“集成 Data Mesh 和生成式 AI”,揭示了通过将 Data Mesh 的去中心化奇迹与生成式 AI 的惊人功能相结合,组织可以加速其数据驱动的决策流程,创造一个即使是您的数据产品也拥有使您的业务更智能的大脑的未来!
-
第 14 章,“建立 Data Mesh 团队”,强调,成功的 Data Mesh 实施依赖于 20% 的技术和 80% 的人才,数据产品团队就像社会技术生态系统中的自主“数据产品工厂”,同时与平台交互,使团队能够创建一个繁荣的数据驱动环境。
-
第 15 章,“定义 Data Mesh 运维模式”,介绍了 Data Mesh 如何需要从传统的集中式数据管理转变为分散的、以领域为中心的方法,这涉及创建一个运维模式,使人员、流程和技术保持一致,以在整个组织中高效管理、共享和利用数据产品。
-
第 16 章,“建立实用的 Data Mesh 路线图”,概述了 Data Mesh 实施的实用路线图,强调需要平衡技术、组织文化、数据产品创建和治理,并将其构建为并行工作流(技术、工厂、运维模式、社交),以构建可扩展且高效的 Data Mesh 生态系统。