什么是数据架构?
数据架构是描述和管理组织数据收集、管理和使用的总体框架。当今的企业拥有来自各种数据来源的海量数据,不同的团队都希望访问这些数据,以用于分析、机器学习、人工智能和其他应用。现代数据架构是一个聚合性系统,在确保数据安全和质量的同时,还能使数据易于访问和使用。它定义了策略、数据模型、流程和技术,方便组织跨部门移动数据,并确保数据在需要时随时可用(包括实时访问),同时完全支持合规性。
收据架构有哪些组件?
主要的数据架构组件如下所示。
数据来源
数据来源可以是面向客户的应用程序、监控和遥测系统、物联网设备和智能传感器、支持业务运营的应用程序、内部知识库、数据档案、第三方数据存储等。结构化和非结构化数据以不同的速度、数量和频率进入组织。
数据库
专用数据库系统支持现代应用程序及其不同的功能。它们可以是关系型或非关系型,有些将数据存储为结构化表,而另一些则将非结构化数据类型存储为文档或键值对。 数据库通常存储与狭义用例相关的特定领域数据。但是,这些数据可以在当前系统之外使用。例如,来自面向客户的应用程序的数据可用于营销分析或规划,需要从数据库中提取数据进行处理。同样,来自其他地方的处理数据必须重新加载到分析或机器学习(ML)应用程序的数据库中。
数据湖
数据湖是用于大规模存储原始数据的集中存储库。数据架构描述了数据如何根据使用需要从不同的数据库移动到数据湖并返回不同的数据库。数据湖以本机或开放格式存储数据,允许在使用前进行格式化和清理。它支持数据集成并打破组织内部的数据孤岛。
数据分析
数据分析组件包括传统的数据仓库、批量报告和用于实时警报和报告的数据流技术。它们可用于一次性查询和高级分析用例。分析不受数据孤岛的限制,因为数据架构开放了访问权限,让每个人都能更自由地使用组织的数据资产。
人工智能
机器学习和人工智能对于现代数据策略至关重要,可以帮助组织预测未来情景并将智能融入应用程序。数据科学家使用来自湖泊的数据进行实验、识别情报用例并训练新模型。即使经过训练,人工智能模型也需要持续访问新数据才能生成相关且有用的输出。现代数据架构包括支持 AI 模型训练和推理的所有技术和基础设施。
数据治理
数据治理明确了数据使用的角色、责任和标准。它概述了哪些人可以对哪些数据采取何种行动、使用何种方法以及在何种情况下采取行动。它包括数据质量和数据安全管理。数据架构师定义审计和跟踪数据使用情况的流程,以实现持续的监管合规性。
元数据管理是数据治理不可分割的一部分。数据架构包括存储和共享元数据的工具和策略。它概述了提供中央元数据存储的机制,不同的系统可以在其中存储和发现元数据,并使用它来进一步查询和处理数据资产。
数据架构是如何实现的?
分层实现现代数据架构是一种最佳实践。各层根据不同的目标对流程和技术进行分组。实施细节很灵活,但各层指导技术选择及其整合方式。
暂存层
暂存层是架构内数据的入口点。它处理来自各种来源的原始数据摄取,包括结构化、半结构化和非结构化格式。你希望这个层尽可能灵活。
如果在此层严格执行架构(数据格式和类型),则下游用例将受到限制。例如,将所有日期值强制为月、年格式限制了未来需要 dd/mm/yyyy 格式的用例。同时,你需要一定的一致性。例如,如果电话号码存储为字符串并按原样使用,但其他一些数据来源开始生成与数字相同的数据,则会导致数据管道中断。
平衡灵活性与一致性需要将该层划分为两个子层。
原始图层
原始层完全按照到达的原样存储未更改的数据,保留原始格式和结构,无需进行转换。它是用于数据探索、审计和可重复性的企业级存储库。团队可以在需要时重访和分析原始状态的数据,从而确保透明度和可追溯性。
标准化层
标准化层通过根据预定义标准进行验证和转换,准备原始数据以供使用。例如,在此层中,所有电话号码都将转换为字符串,将所有时间值转换为特定格式等。因此,它成为组织内所有用户访问结构化、有质量保证的数据的接口。
数据架构中的标准化层对于实现自助商业智能(BI)、常规分析和机器学习工作流程至关重要。它强制执行架构标准,同时最大限度地减少架构更改造成的中断。
合格层
来自不同来源的数据集成在一致层中完成。它创建了跨域统一的企业数据模型。例如,不同部门的客户数据可能有不同的详细信息——订单详细信息由销售获取,财务历史记录由账户捕获,兴趣和在线活动由营销部门捕获。一致性层使整个组织对此类数据有了共同的理解。主要益处包括:
- 对整个组织的核心实体进行一致、统一的定义。
- 遵守数据安全和隐私法规。
- 灵活性,通过集中式和分布式模式平衡企业范围的统一性与特定领域的定制。
它不直接用于运营商业智能,但支持探索性数据分析、自助服务 BI 和特定领域的数据扩展。
富集层
该层将前一图层中的数据转换为专为特定用例量身定制的数据集,称为数据产品。数据产品的范围可以从用于日常决策的运营仪表板到包含个性化建议或下一步最佳行动见解的详细客户档案。它们托管在根据特定用例选择的各种数据库或应用程序中。
组织在集中式数据管理系统中对数据产品进行编目,以便其他团队发现和访问。这样可以减少冗余,并确保易于访问高质量、丰富的数据。
数据架构有哪些类型?
一致层有两种不同的方法,可以创建不同的数据架构类型。
集中式数据架构
在集中式数据架构中,一致层侧重于创建和管理整个企业中普遍使用的通用实体,如客户或产品。这些实体用一组有限的通用属性定义,以便于数据管理和广泛适用。例如,客户实体可能包括姓名、年龄、职业和地址等核心属性。
这种数据架构支持集中式数据治理,特别是对于个人身份信息(PII)或支付卡信息(PCI)等敏感信息。集中式元数据管理确保数据得到有效编目和管理,并通过沿袭追踪和生命周期控制实现透明度和安全性。
然而,这种模型避免了包括所有可能的属性,因为集中管理复杂的数据需求会减缓决策和创新。相反,特定于领域的属性,如客户活动曝光量(仅营销所需),由相应的业务部门在丰富层中导出。
数据编织架构技术在实现集中式数据架构方面很有用。
分布式数据架构
每个域在分布式数据架构中创建和管理自己的一致层。例如,营销侧重于客户细分、活动曝光量和转化率等属性,而会计则优先考虑订单、收入和净收入等属性。
分布式数据架构允许灵活定义实体及其属性,但会导致公共实体生成多个数据集。这些分布式数据集的可发现性和治理是通过一个中央元数据目录实现的。利益相关者可以在监督数据交换过程的同时找到并使用适当的数据集。
数据网格技术在实现分布式数据架构方面很有用。
什么是数据架构框架?
数据架构框架是一种结构化的数据架构设计方法。数据架构框架提供了一套原则、标准、模型和工具,确保高效的数据管理流程与组织的业务目标保持一致。您可以将其视为数据架构师用来构建高质量和全面的数据架构的标准蓝图。
数据架构框架的一些示例包括
DAMA-DMBOK 框架
数据管理知识体系(DAMA-DMBOK)框架概述了整个生命周期内有效数据管理的最佳实践、原则和流程。该框架支持建立一致的数据管理实践,同时确保与业务目标保持一致。通过将数据资产视为战略资源,DAMA-DMBOK 为提高决策和运营效率提供了可操作的指导。
Zachman 框架
Zachman 框架是一个企业架构框架,使用矩阵格式来定义不同视角(如业务所有者、设计师和构建者)和六个关键问题(什么、如何、在哪里、谁、何时和为什么)之间的关系。组织可以可视化数据如何融入其整体运营,确保与数据相关的流程与业务目标和系统要求保持一致。Zachman 框架因其能够清晰地显示企业范围内的数据和系统依赖关系而得到广泛认可。
TOGAF
开放组架构框架(TOGAF)将数据架构视为更广泛系统的关键组成部分,强调创建支持组织需求的数据模型、数据流和治理结构。该框架建立了标准化的数据流程,确保了系统的互操作性和高效的数据管理。对于希望通过统一方法调整其 IT 和业务战略的大型企业来说,这尤其有益。
与其他相关术语相比,数据架构的情况如何?
不同的数据术语听起来相似,但含义完全不同。我们将在下面进行说明。
数据架构与信息架构
信息架构是指向最终用户组织和呈现信息。该术语适用于用户界面、网站或内容系统,涉及最终用户信息的可访问性。信息架构中的原则和工具侧重于导航、分类和可搜索性,例如在线知识库或文档数据库中。
相比之下,数据架构侧重于设计和管理所有组织数据。数据架构涉及所有后端技术数据基础架构,而信息架构只关注最终用户如何与信息交互和解释信息。
数据架构与数据工程
数据工程是数据架构的实际实现。数据架构师为管理组织的数据资产提供了一个高级计划。数据架构师负责设计与业务目标和安全策略相一致的可扩展数据系统。数据工程师负责实施计划—构建、维护和优化数据管道。数据工程师负责确保按照数据架构的规则摄取、清理、转换和交付数据以供分析。
数据架构与数据建模
数据建模是数据架构中的一个过程,创建了任何数据收集的可视化表示。数据建模包括创建概念、逻辑和物理数据模型,以概述集合中的数据。逻辑数据模型以一种与平台无关的方式以图表形式表示数据约束、实体名称和实现关系。物理数据模型进一步细化了逻辑模型,以便采用特定数据技术实现。
数据架构的范围远远超出了数据建模。除了数据属性和关系外,数据架构还为整个组织的数据管理定义了更广泛的战略。数据架构包括与组织目标相一致的数据集成基础设施、策略和技术。
AWS 如何支持您的数据架构要求?
AWS 为您的数据架构的每一层都提供了一套全面的分析服务,从存储、管理到数据治理和 AI等均涵盖在内。AWS 提供具有最佳性价比、可扩展性和最低成本的专用服务。例如,
- Databases on AWS 包括超过 15 个专用数据库服务,以支持各种关系和非关系数据模型。
- Data lakes on AWS 包括提供无限原始数据存储的服务,并在几天内构建安全的数据湖,无需几个月的时间。
- Data integration with AWS 包含的服务将来自多个来源的数据汇集在一起,以便您可以在整个组织中转换、操作和管理数据。
AWS Well-Architected 可帮助云数据架构师构建安全、高性能且高效的弹性基础设施。 AWS Architecture Center 包含基于用例的指南,用于在您的组织中实施各种现代数据架构。
立即创建免费账户,开始在 AWS 上使用数据架构。