第一章:了解数据网格:基础知识
在瞬息万变的企业数据管理领域,数据网格已从一个新兴概念发展成为现代数据架构的基石。 它的崛起标志着企业在处理其数据生态系统日益增长的复杂性和规模方面发生了重大转变。 Zhamak Dehghani 的开创性著作《数据网格》(O’Reilly)阐述了数据网格的基本原理,为数据处理和利用的新时代奠定了基础。 本书以 Dehghani 的原则为基础,旨在弥合理论理解与实际应用之间的差距,将数据网格的原则转化为数据专业人员的实践。 我们认识到,许多读者可能对 Dehghani 的原则并不陌生,因此我们深入探讨,不仅重申了这些概念,还对它们进行了扩展,以展示它们在现实世界中的应用。 对于数据网格的新读者,我们提供了通俗易懂的介绍,确保所有读者都能站在同一起跑线上。 本书以数据网格的核心原则为基础,但又远远超出了这一坚实的基础,说明了如何在企业内有效实施和操作这些原则。 首先,让我们重申 Dehghani 的转型愿景,它基于几项关键原则:
-
数据作为一种产品
数据被视为有价值的产品,由领域团队负责开发和提供适合其特定需求的数据解决方案。
-
去中心化域名所有权
数据责任分配给特定领域的团队,每个团队对其数据的质量、可访问性和管理负责。
-
自服务
这是一个能让领域团队独立管理数据的框架,减少了对集中式数据团队的依赖。
-
联合计算治理
在这种模式下,领域团队根据组织的总体政策,在其职权范围内实施数据管理。
使数据敏捷
这些原则与敏捷软件开发方法的精神不谋而合。 2001 年发表的《敏捷软件开发宣言》至今仍是软件行业的一份重要文件,其核心内容是强调个人与互动、工作软件、客户协作和应对变化。 这些原则通过 scrum 和 kanban 等框架转化为实践,这些框架提倡迭代开发、定期反馈循环以及跨职能团队之间的密切合作。
自《敏捷宣言》发表以来,将敏捷核心原则付诸实践已经过去了 20 多年。 我们现在可以更快、更好、更便宜地交付软件: 麦肯锡咨询公司(McKinsey & Company)的研究表明,“敏捷型组织有 70% 的几率跻身组织健康度的前四分之一,这是衡量长期绩效的最佳指标”。 简而言之,软件工程世界已今非昔比。 同样,Data Mesh 将灵活性引入数据环境,强调分散所有权、响应式数据管理和跨职能协作团队。 正如敏捷提倡自组织团队一样,数据网格提倡面向领域的分散所有权,将数据的力量交到各个领域团队的手中。 在敏捷环境下,客户协作涉及与利益相关者的持续接触,以了解他们不断变化的需求。 同样,Data Mesh 鼓励领域团队与其组织内的数据消费者接触,收集反馈并迭代数据产品,以满足他们的特定要求。
就像敏捷重视工作软件一样,Data Mesh 也重视交付高质量的数据产品。 基于敏捷的用户故事定义了所需的功能;数据产品概述了数据的功能、质量要求和可访问性,使领域团队能够构建和交付为利益相关者提供真正价值的数据产品。 简而言之,Data Mesh 将敏捷实践引入数据,从而使数据变得敏捷!
本地自主性 + 速度 = 敏捷性
数据网格具有多种优势,可应对企业在数据管理方面面临的挑战,特别是在采用本地自主性和速度方面,这反过来又会推动敏捷性。 首先,Data Mesh 倡导地方自治。 传统的集中式方法往往会导致数据团队超负荷工作和决策瓶颈。 与此相反,Data Mesh 赋予各个领域团队对其数据的所有权和责任。 这种权力下放使团队能够更深入地了解其具体的数据需求和要求,从而做出更有效的决策和更快的响应时间。 通过促进本地自治,Data Mesh 使团队能够快速适应不断变化的数据需求,并及时做出数据驱动型决策。 通过本地自治,Data Mesh 可以提高速度,而随着速度的提高,上市时间也会缩短。 Data Mesh 专注于自助式数据基础设施,使领域团队能够独立访问和管理数据。 这消除了有时需要向集中数据团队提出的官僚流程和耗时请求,减少了等待时间,加快了数据开发生命周期。 通过将必要的工具和资源交到数据从业人员手中,Data Mesh 实现了数据产品的快速迭代、实验和交付。 速度的提高使企业能够更有效地利用数据洞察力,在当今快节奏的商业环境中赢得竞争优势。
本地自治带来了速度和灵活性:通过分配数据所有权和促进协作,Data Mesh 使团队能够迅速响应不断变化的业务需求和数据要求。 领域团队可以灵活调整其数据产品,甚至在某些情况下调整基础设施,以满足不断变化的需求,避免僵化的集中式系统的限制。 这种灵活性使企业能够抓住新出现的机遇,实时做出数据驱动的决策,并在竞争中保持领先。 也许敏捷性最有趣的副产品就是建立创新和实验文化。 通过本地自治,鼓励团队探索新思路、测试假设并迭代其数据产品。 这可以培养主人翁意识和责任感,从而激发创造力,推动持续改进。 通过采用数据网格原则,企业可以释放其数据资产的潜力,使团队能够发现有价值的见解、开发创新解决方案并推动业务增长。
解决当今的数据挑战
Data Mesh 及其 “敏捷数据 “承诺将解决哪些问题? 数据孤岛可以弥合吗? 数据质量始终是一项挑战,能否提高数据质量? 数据管理方面的差距能否转化为公认的业务价值驱动力?
弥合数据孤岛
让我们从数据孤岛说起。 数据 “孤岛 “阻碍了数据的访问和协作,使我们难以获得整体视角,也无法充分发挥可用数据的潜力。 它们是现代企业中几乎所有数据从业人员都会遇到的真实、直接和严峻的挑战。
数据孤岛就像汪洋大海中的孤岛,是局限于特定部门或系统内的数据存储库,因此与更广泛的组织数据景观脱节。 这种隔离导致数据生态系统支离破碎,宝贵的洞察力仍未得到开发,企业的集体智慧也未得到充分利用。
这些 “孤岛 “的存在往往源于历史悠久的组织结构、不同的技术平台以及随着时间推移而固化的部门界限。 因此,关键的业务决策往往是根据不完整或过时的信息做出的,导致效率低下、错失良机和竞争优势被削弱。
数据孤岛的后果不仅仅是效率低下,它还会严重阻碍组织内部的协作和创新。 当数据被困在孤岛中时,团队就很难获取有效协作所需的信息。 这种缺乏可访问性和可见性的情况导致工作重复、数据实践不一致,以及普遍的组织脱节感。
在当今数据驱动的商业环境中,如果无法整合来自企业不同部门的数据,就会削弱公司应对市场变化、了解客户需求和优化运营的能力。 数据源、法规和业务实践的多样性使本已错综复杂的数据集成和统一工作更加复杂。
要克服数据孤岛的挑战,就必须采取战略性的协同努力,培养数据共享和协作的文化。 这不仅涉及采用新技术,还涉及组织心态和做法的根本转变。
有鉴于此,Data Mesh 变得非常重要,它为数据管理提供了一个分散但具有凝聚力的框架。 数据网格倡导以领域为导向的数据所有权,使各个团队能够有效地管理和共享数据,同时与组织的总体目标保持一致。 通过采用这种模式,企业可以逐步拆除数据孤岛的障碍,为建立更加集成、敏捷和以数据为中心的组织文化铺平道路。
转向更高质量的数据
随着数据量和种类的增加,确保数据质量和完整性变得越来越困难。 数据质量差会导致错误或糟糕的业务决策、错误的战略,并最终对业务成果产生不利影响。 更糟糕的是,数据的复杂性可能会阻碍合规工作,因为当数据分散且错综复杂时,理解数据隐私法规的细微差别就变得更加困难。 对于全球性组织来说,这一挑战因需要驾驭错综复杂的地区和国际数据法律而更加严峻。
要驾驭这种复杂性,需要采取多方面的方法,将技术、战略和组织文化融为一体。 机器学习(ML)和人工智能等先进技术为分析复杂的数据集、发现模式和产生人类无法识别的洞察力提供了强大的工具。 然而,技术本身并不是万能的,它必须与优先考虑数据管理、质量和集成的强大数据战略相结合。 企业需要培养数据文化,让各部门员工了解数据的重要性,并掌握有效利用数据的技能和工具。
向更敏捷、更灵活的数据架构转变,如 Data Mesh 所倡导的架构,也能起到至关重要的作用。 通过分散数据所有权和管理权,Data Mesh 允许特定领域的团队更有效地处理数据,减少瓶颈并提高对变化的响应速度。 这种方法不仅有助于管理复杂性,还能让团队从数据中获取最大价值,将潜在障碍转化为战略资产。
变革数据管理
最后但并非最不重要的是每个数据从业人员最喜欢的话题:数据治理。
数据治理是现代企业数据管理架构中不可或缺的组成部分,这主要是因为需要遵守监管、隐私和企业安全政策。 有效的治理可确保数据的管理和使用方式符合这些外部和内部要求。
然而,不断增加的监管要求又增加了一层复杂性,欧盟的《通用数据保护条例》(GDPR)、美国的《健康保险可携性和责任法案》(HIPAA)等严格的要求以及其他法规都对数据处理、隐私和保护施加了严格的指导和限制。 要驾驭这个错综复杂的法规网络,不仅需要强大的安全基础设施,还需要对数据管理和治理保持警惕,采取积极主动的方法。
鉴于对违规行为的处罚以及与数据泄露相关的风险,治理不仅是一个合规问题,也是一项重要的业务需求。 在这种不断变化的情况下,数据治理必须敏捷、反应迅速,并与日常数据处理深度融合。
传统上,数据治理通常通过集中模式进行管理。 虽然这种模式提供了统一性和中央控制,但经常导致缓慢和官僚主义的做法,造成瓶颈,阻碍数据的动态使用。 在集中式治理系统中,有关数据访问、质量和安全的决策往往由一个独立的中央机构做出,与数据的使用环境相去甚远。
这种距离会导致治理政策与不同业务部门的实际需求和现实之间效率低下和不协调。 其结果往往是治理模式被视为阻碍而非推动因素,从而减缓了创新和对不断变化的业务和市场需求的响应速度。
如今,数据管理往往被视为一项必须完成的任务,是上级下达的命令,而不是一项能带来内在价值的任务。 数据网格提供了另一种选择。
Data Mesh 通过倡导联合治理模式来应对数据治理方面的挑战,该模式将治理责任赋予最了解数据的数据所有者。 在这种模式中,管理是分散的,每个领域团队负责其数据产品的管理。 这种方法可确保由那些对数据背景、使用和风险有最深入了解的人做出管理决策。 这将使治理实践更加贴切、高效和有效,并与每个领域的具体需求紧密结合。
为了更好地理解 Data Mesh 的联合治理模式,可以将其与美国国家标准协会 (ANSI) 或加拿大标准协会 (CSA) 进行类比–几乎每个国家或地区都有类似的组织。 在这种情况下,ANSI 或 CSA 制定规则和政策,并提供认证程序,使供应商能够确保其产品符合既定标准。 这一认证过程就像一个信任的 “品牌 “或 “标志”。 然后,供应商可以公布其认证状态,向消费者表明其产品符合高标准。
在数据网格治理模式中,一般或范围广泛的政策是集中制定的,类似于 ANSI/CSA 制定产品标准和政策,数据产品所有者 (DPO) 负责实施和报告政策的遵守情况。 DPO 确保其数据产品符合既定的治理标准,一旦符合标准,就可以认证为符合企业的治理标准。
这一认证不仅是组织内部信任和质量的标志,而且还通过授权最接近数据的人员来简化管理流程。 它确保治理不是一个自上而下的官僚程序,而是一种协作性的综合实践,能够提高整个企业的数据价值和安全性。
此外,DPO 最接近数据及其使用案例,在理解和有效管理合规要求方面处于独特的地位。 他们可以发布和更新自己的认证状态,使这些信息在 Data Mesh 生态系统中透明并可访问。
这种方法与传统的集中治理模式形成鲜明对比,后者通常由一个负责监督和管理所有数据活动的中央小组来管理合规性。 虽然这种模式在保持控制和统一性方面有其优势,但也可能导致瓶颈、延误以及治理流程与数据的实际应用脱节。
在联合模式中,合规责任是分散的,可在 DPO 之间培养问责和敏捷的文化。 他们可以更迅速地应对法规或业务需求的变化,更新认证状态,确保其数据产品始终合规。 这不仅能简化管理流程,还能将合规性嵌入数据网格的结构中,使其成为数据产品生命周期中不可分割的一部分,而不是一个外部强制流程。
数据量、多样性和可变性
数据本身的特点如何?
如今,数据创建和消费的速度已经成为企业面临的一个决定性挑战。 数据的快速生成和消耗就像高速行驶的列车,因此必须采用持续、灵活的数据管理方法。
传统的数据基础设施往往难以跟上步伐,导致数据处理和分析出现瓶颈和延误。 我们面临的挑战不仅在于如何存储这些海量数据,还在于如何实时处理这些数据并从中提取价值。 企业需要调整其基础设施、工具和流程,以管理这些海量数据,并有效利用这些数据及时做出决策和提出见解。
Data Mesh 为应对数据速度的挑战提供了令人信服的解决方案。 首先,如前所述,本地自治将决策权–如何处理数据、如何转换数据以及如何最有效和高效地使用数据–下放给最接近数据和最了解数据的人。 如果数据速度加快,决策制定也必须相应提高,而 Data Mesh 提供的本地自主性正是解决这一问题的方法之一。
Data Mesh 的设计本身就是为了高效处理大量高速数据。 它通过分散数据所有权和管理权来实现这一目标。 在数据网格框架中,数据不再是单点管理的集中资产。 取而代之的是,它分布在多个特定领域的团队中,每个团队都配备了工具和自主权,以管理自己的数据生态系统。
这种分散式方法允许分布式团队独立处理数据,从而大大缩短了数据摄取、处理和分析所需的时间。 通过增强领域团队的能力,Data Mesh 可确保数据处理更加灵敏,并与每个领域的具体需求和动态保持一致,从而实现更快、更有效的决策。
现在,本地自治与 Data Mesh 的 “自助服务 “功能相结合。 消费者可以使用标准的、众所周知的、已发布的接口,随时访问数据。 数据提供者可以创建数据产品,只需极少的中央小组参与。 此外,还可按需提供扩展数据产品所需的平台能力。
通过采用 Data Mesh,企业可以将数据速度的挑战转化为机遇,利用快速的数据流推动创新,提升客户体验,并做出更明智、更灵活的业务决策。 简而言之,Data Mesh 可让企业跟上数据的速度、种类和变化。
将原则转化为实践
现在,我们希望您能看到 Data Mesh 的明显优势。 但要实现这些优势,就必须将革命性的数据网格原则付诸实践。 这就是我们认为本书的核心目的。 本书由三个基本目标驱动,每个目标都经过精心设计,以指导专业人员掌握数据网格。
我们的第一个目标是揭开从数据网格理论到实践过渡的神秘面纱。 我们不只是抽象地讨论原则,而是通过现实世界的例子、详细的案例研究和可直接应用于组织环境的实用策略来说明这些原则。
其次,我们的目标是加快您的数据网格之旅。 了解数据网格的复杂性是一回事,高效和有效地应用它们又是另一回事。 本书提供了一整套技术和最佳实践,这些技术和最佳实践是从领先的行业专家和先驱组织中提炼出来的,可帮助您快速实施 Data Mesh。 我们将深入探讨自动化管理、优化数据产品设计以及利用尖端技术扩大 Data Mesh 在企业中的优势等高级主题。
第三,我们的目的是为 Data Mesh 的成功绘制清晰、可行的路线图。 本路线图不仅仅是一个理论指导,它还是一个实用的工具包,可以解决在实施 Data Mesh 过程中遇到的常见挑战和陷阱。 从建立强大的自助服务数据基础设施到培养以数据为导向的企业文化,我们为您提供循序渐进的指导,帮助您驾驭数据网格的复杂性,确保从开始到执行的整个过程顺利、成功。
通过接受这些原则并将其转化为可操作的实践,我们展望未来,企业可以充分利用数据网格的变革力量。 我们相信,采用 Data Mesh 原则可以将数据计划推向前所未有的高度,使企业变得更加灵活、以数据为导向并更具竞争力。
我们撰写本书的愿望源于一个谦逊而大胆的愿景:二十年后,我们希望回顾过去,看到 Data Mesh 是将敏捷方法引入数据管理领域的关键力量。 我们的贡献虽然只是这场大运动中微不足道的一部分,但我们的目标是使企业能够从数据中获得更好、更快、更具成本效益的见解和业务价值。 在本书中,我们试图激励新一代的数据专业人士,为他们提供知识和工具,以彻底改变数据管理实践,并推动他们的组织走向这样一个未来:数据不仅是资产,也是创新和增长的催化剂。
在当今数据驱动的时代,企业在管理和利用数据力量方面面临着无数挑战。 数量庞大、种类繁多的数据源可能会让人应接不暇,就像一条泛滥成灾的河流,让企业难以驾驭。 如何理解这些海量数据、确保其质量以及提取有价值的见解,都构成了重大障碍。
Zhamak Dehghani 的数据网格原理为数据管理提供了一个革命性的愿景。 他们主张分散所有权、自助式数据平台、联合计算管理和跨职能合作。 通过将敏捷原则应用于数据,Data Mesh 促进了本地自主性、速度和敏捷性。 将这些原则付诸实践的组织可以克服数据挑战,释放数据网格的优势,提高数据的可访问性、质量和对不断变化的数据需求的响应能力。
本书的其余部分旨在就以下方面提供实用指导:实施数据网格、建立自助式数据基础设施、培养数据产品思维、实施联合计算数据治理、创建分散的所有权、促进跨职能协作以及推动组织内的知识共享。 我们将讨论几个主题:
-
定义要点
我们将定义数据产品(第 2 章),以及它们如何成为 Data Mesh 生态系统的成员。 我们将介绍我们的案例研究(第 3 章)–应用 Data Mesh 使气候数据易于查找、消费、共享和信任–该案例研究将贯穿全书,用于演示如何实施 Data Mesh 实践。 当然,我们还将提供有关 Data Mesh 架构的观点(第 4 章)。
-
拥抱数据产品思维模式
我们将介绍数据合约(第 5 章)如何使 Data Mesh 生态系统的所有成员都能找到彼此并进行交互。 我们将解释如何鼓励领域团队将数据视为一种产品,为数据产品定义清晰的边界,并建立首个数据产品所需的应用程序接口、文档和支持机制(第 6-8 章)。 最后,我们将介绍一种 “测试和学习 “的思维方式,鼓励团队根据反馈和不断变化的业务需求迭代和改进数据产品,并在每个数据产品团队中促进持续改进和创新的文化。
-
使数据敏捷
然后,我们将介绍 Data Mesh 生态系统中数据产品的核心接口(第 9 章),使数据产品可被发现、观察和操作。 我们将介绍通过发现和可观测性获得的数据产品的关键 “超级能力”:数据网格市场(第 10 章)。 我们还将介绍一种转型方法,该方法以现代现实世界中的实例为蓝本,用委托 “认证 “方法取代传统的数据治理方法(第 11 章),以及一种构建数据生态系统及其数据 “供应链 “的 “工厂 “方法,该方法允许您的数据网格成长和发展(第 12 章)。 最后,生成式人工智能–OpenAI、ChatGPT 及其开源同类产品有望撼动现代企业的根基。 数据网格显然也不例外。 事实上,我们看到了生成式人工智能的实质性和广泛用途,我们将对此进行解释(第 13 章)。
-
创建面向领域的去中心化所有权
我们将介绍实施数据网格所需的 “团队拓扑结构”(第 14 章)。 我们将定义并描述数据网格运行模式的复杂性(第 15 章)。 然后,我们将讨论激励机制和组织结构,使数据网格能够优雅地发展和壮大。
-
创建数据网格路线图
我们将提供一个久经考验的 “路线图”(第 16 章),从战略入手,说明如何实施核心数据产品和 Data Mesh 基本要素,以及如何建立数据产品团队和更广泛的 Data Mesh 运营模式。 我们还将展示如何通过实践社区、定期跨职能会议或数据委员会在领域团队之间建立协作和知识共享渠道。 我们将演示如何在企业内部实现数据网格的社会化,以鼓励团队分享最佳实践、经验教训和数据资产,从而充分利用企业的集体知识和专业技能。
总结
将这些原则付诸实践,企业就能克服数据管理方面的挑战,实现数据网格的优势。 他们可以实现所渴望和需要的本地自主权,赋予数据产品团队对其数据的所有权和控制权,使他们能够以更快的速度运行,利用自助服务基础设施,并实现快速迭代和实验。 最后,他们可以通过促进合作、采用数据产品思维和实施联合计算数据治理来实现敏捷性。 按照这些实用步骤,企业可以转变数据管理方法,充分释放数据资产的潜力。 尽情享受吧!