Qu’est‑ce que l’architecture de données ?
L’architecture de données constitue le cadre général qui décrit et régit la collecte, la gestion et l’utilisation des données d’une entreprise. Les entreprises disposent aujourd’hui de larges volumes de données provenant de diverses sources de données, tandis que leurs équipes souhaitent y accéder à des fins d’analytique, de machine learning, d’intelligence artificielle ou pour d’autres applications. L’architecture de données moderne présente un système cohérent qui rend les données accessibles et utilisables, tout en garantissant la sécurité et la qualité des données. Elle définit les politiques, les modèles de données, les processus et les technologies qui permettent aux entreprises de simplifier le transfert de données entre les services. Elle permet également de garantir leur disponibilité en cas de besoin, y compris en temps réel, tout en garantissant la conformité réglementaire.
Quels sont les composants de toute architecture de données ?
Les principaux composants de l’architecture de données sont présentés ci‑dessous.
Sources de données
Les sources de données peuvent être des applications orientées client, des systèmes de surveillance et de télémétrie, des appareils IoT et des capteurs intelligents, des applications prenant en charge les opérations commerciales, des banques de connaissances internes, des archives de données, des magasins de données tierces, etc. Les données structurées et non structurées entrent dans l’entreprise à des vitesses, des volumes et des fréquences variables.
Bases de données
Les systèmes de base de données sur mesure prennent en charge les applications modernes et leurs différentes fonctionnalités. Elles peuvent être relationnelles ou non relationnelles, certaines stockant des données sous forme de tables structurées et d’autres stockant des types de données non structurés sous forme de documents ou de paires clé‑valeur. Les bases de données stockent généralement des données spécifiques à un domaine liées à un cas d’utilisation restreint. Cependant, les données peuvent être utilisées au‑delà du système existant. Par exemple, les données d’une application orientée client peuvent être utilisées à des fins d’analytique marketing ou de planification et doivent être extraites de la base de données pour être traitées. De même, les données traitées depuis un autre endroit doivent être rechargées dans la base de données d’une application d’analytique ou de machine learning (ML).
Lacs de données
Un lac de données est un référentiel centralisé pour le stockage de données brutes à grande échelle. L’architecture de données décrit la manière dont les données sont transférées de différentes bases de données vers le lac de données, puis retournent vers différentes bases de données en fonction des besoins d’utilisation. Le lac de données stocke les données dans un format natif ou ouvert, ce qui permet de les formater et de les nettoyer avant utilisation. Il favorise l’intégration des données et élimine les silos de données au sein d’une entreprise.
Analytiques des données
L’analytique des données inclut des entrepôts de données traditionnels, la génération de rapports par lots et une technologie de flux de données pour des alertes et des rapports en temps réel. Elle peut être utilisée pour des requêtes ponctuelles et des cas d’utilisation d’analytique avancée. L’analytique n’est pas limitée par les silos de données. En effet, l’architecture de données ouvre l’accès aux actifs de données de l’entreprise et offre à chacun davantage de liberté d’utilisation.
Intelligence artificielle
Le ML et l’IA sont essentiels à toute stratégie de données moderne. Ils visent à aider les entreprises à prévoir les scénarios futurs et à intégrer des capacités d’intelligence dans les applications. Les scientifiques des données utilisent les données des lacs pour expérimenter, identifier des cas d’utilisation d’intelligence et entraîner de nouveaux modèles. Même après l’entraînement, les modèles d’IA nécessitent un accès permanent à de nouvelles données pour générer des résultats pertinents et utiles. Les architectures de données modernes incluent toutes les technologies et infrastructures qui prennent en charge l’entraînement et l’inférence de modèles d’IA.
Gouvernance des données
La gouvernance des données détermine les rôles, les responsabilités et les normes d’utilisation des données. Elle précise qui peut prendre telle ou telle mesure, sur la base de quelles données, en utilisant quelles méthodes et dans quelles situations. Elle inclut la gestion de la qualité et de la sécurité des données. Les architectes des données définissent des processus pour auditer et suivre l’utilisation des données afin de garantir une conformité réglementaire continue.
La gestion des métadonnées fait partie intégrante de la gouvernance des données. L’architecture de données inclut des outils et des politiques pour stocker et partager les métadonnées. Elle définit les mécanismes visant à fournir un magasin de métadonnées central dans lequel des systèmes disparates peuvent stocker et découvrir des métadonnées, et les utiliser pour interroger et traiter davantage les actifs de données.
Comment l’architecture de données est‑elle implémentée ?
Il est recommandé d’implémenter votre architecture de données moderne en couches. Les couches regroupent les processus et les technologies en fonction d’objectifs distincts. Les détails d’implémentation sont flexibles, mais les couches guident les choix technologiques et la manière dont ils doivent s’intégrer.
Couche intermédiaire
La couche intermédiaire est le point d’entrée des données au sein de l’architecture. Elle gère l’ingestion de données brutes provenant de diverses sources, y compris des formats structurés, semi‑structurés et non structurés. Il est important que cette couche soit aussi flexible que possible.
Si le schéma (formats et types de données) est appliqué de manière rigide dans cette couche, les cas d’utilisation en aval sont limités. Par exemple, le formatage forcé de toutes les valeurs de date au format mois, année limite les cas d’utilisation futurs nécessitant un formatage jj/mm/aaaa. Cependant, il est essentiel de maintenir une certaine cohérence. Par exemple, si les numéros de téléphone sont stockés sous forme de chaînes et utilisés comme tels, mais qu’une autre source de données commence à générer les mêmes données sous forme numérique, cela risque d’entraîner la rupture des pipelines de données.
Pour trouver un équilibre entre flexibilité et cohérence, vous devez diviser cette couche en deux sous‑couches.
Couche brute
La couche brute stocke les données inchangées exactement telles qu’elles arrivent, préservant ainsi le format et la structure d’origine sans transformation. Il s’agit d’un référentiel à l’échelle de l’entreprise pour l’exploration, l’audit et la reproductibilité des données. Les équipes peuvent accéder aux données et les analyser dans leur état d’origine si nécessaire, afin de garantir la transparence et la traçabilité.
Couche normalisée
La couche normalisée prépare les données brutes pour la consommation en appliquant des validations et des transformations conformément à des normes prédéfinies. Par exemple, dans cette couche, tous les numéros de téléphone peuvent être convertis en chaînes, toutes les valeurs temporelles en formats spécifiques, etc. Elle devient ainsi l’interface permettant à tous les utilisateurs de l’entreprise d’accéder à des données structurées et de qualité garantie.
La couche normalisée de l’architecture de données est cruciale pour permettre l’informatique décisionnelle en libre‑service, l’analytique de routine et les flux de travail de machine learning. Elle applique les normes de schéma tout en minimisant les perturbations causées par les modifications de schéma.
Couche conformée
L’intégration des données provenant de différentes sources est finalisée dans la couche conformée. Elle crée un modèle de données d’entreprise unifié à travers tous les domaines. Par exemple, les données clients peuvent contenir des informations différentes selon les services, les détails des commandes sont saisis par le département des ventes, l’historique financier est entré par le service comptable et les intérêts et les activités en ligne sont saisis par le service marketing. La couche conformée crée une compréhension partagée de ces données au sein de l’entreprise. Les avantages clés comprennent ce qui suit :
- Définition cohérente et unifiée des entités principales à travers l’entreprise.
- Conformité aux réglementations en matière de sécurité et de confidentialité des données.
- Flexibilité permettant un équilibre entre l’uniformité à l’échelle de l’entreprise et la personnalisation spécifique à un domaine grâce à des modèles centralisés et distribués.
Elle n’est pas directement utilisée pour l’informatique décisionnelle opérationnelle, mais elle prend en charge l’analyse exploratoire des données, l’informatique décisionnelle en libre‑service et l’enrichissement des données spécifiques à un domaine.
Couche enrichie
Cette couche transforme les données de la couche précédente en jeux de données appelés produits de données adaptés à des cas d’utilisation spécifiques. Les produits de données peuvent aller de tableaux de bord opérationnels utilisés pour la prise de décisions quotidiennes à des profils clients détaillés enrichis de recommandations personnalisées ou d’informations analytiques sur les actions à entreprendre. Ils sont hébergés dans différentes bases de données ou applications choisies en fonction du cas d’utilisation spécifique.
Les entreprises cataloguent les produits de données dans des systèmes de gestion des données centralisés pour optimiser le référencement et y faciliter l’accès pour les autres équipes. Cela réduit la redondance et garantit que des données enrichies de haute qualité sont facilement accessibles.
Quels sont les types d’architectures de données ?
Il existe deux approches différentes de la couche conformée qui engendrent différents types d’architecture de données.
Architecture de données centralisée
Dans les architectures de données centralisées, la couche conformée se concentre sur la création et la gestion d’entités communes, telles que client ou produit, qui sont utilisées dans l’ensemble de l’entreprise. Les entités sont définies avec un ensemble limité d’attributs génériques pour faciliter la gestion des données et une large applicabilité. Par exemple, une entité client peut inclure des attributs de base tels que le nom, l’âge, la profession et l’adresse.
Ces architectures de données prennent en charge la gouvernance des données centralisée, en particulier pour les informations sensibles telles que les données d’identification personnelle (PII) ou les informations de carte de paiement (PCI). La gestion centralisée des métadonnées garantit que les données sont cataloguées et gérées efficacement, avec un suivi du lignage et des contrôles du cycle de vie pour optimiser la transparence et la sécurité.
Cependant, ce modèle évite l’inclusion de tous les attributs possibles, car la gestion centralisée d’exigences complexes en matière de données ralentit la prise de décision et l’innovation. Pour éviter cela, les propriétés spécifiques à un domaine, telles que les impressions de campagnes clients (uniquement requises par le marketing), sont dérivées dans la couche enrichie par les unités respectives.
Les technologies de tissu de données sont utiles pour implémenter des architectures de données centralisées.
Architecture de données distribuée
Dans les architectures de données distribuées, chaque domaine crée et gère sa propre couche conformée. Par exemple, le marketing se concentre sur des attributs tels que les segments de clientèles, les impressions de campagne et les conversions, tandis que la comptabilité donne la priorité à des propriétés telles que les commandes, les revenus et le bénéfice net.
Les architectures de données distribuées offrent une certaine flexibilité dans la définition des entités et de leurs propriétés, mais résultent sur de multiples jeux de données pour des entités communes. Un référencement optimal et la gouvernance de ces jeux de données distribués sont assurés par le biais d’un catalogue de métadonnées central. Les parties prenantes peuvent trouver et utiliser le jeu de données approprié tout en supervisant les processus d’échange de données.
Les technologies de maillage de données sont utiles pour implémenter des architectures de données distribuées.
Qu’est‑ce qu’un cadre d’architecture de données ?
Un cadre d’architecture de données est une approche structurée pour concevoir une architecture de données. Il fournit un ensemble de principes, de normes, de modèles et d’outils qui garantissent des processus de gestion des données efficaces correspondant aux objectifs de l’entreprise. Il constitue un plan standard qu’un architecte des données utilise pour créer des architectures de données complètes et de haute qualité.
Voici quelques exemples de cadres d’architecture de données
Le cadre DAMA-DMBOK
Le cadre Data Management Body of Knowledge (DAMA-DMBOK) décrit les bonnes pratiques, les principes et les processus d’une gestion efficace des données tout au long de leur cycle de vie. Il permet d’établir des pratiques de gestion des données cohérentes tout en garantissant l’alignement sur les objectifs de l’entreprise. En traitant les actifs de données comme une ressource stratégique, DAMA-DMBOK fournit des conseils pratiques permettant d’améliorer la prise de décision et l’efficacité opérationnelle.
Le cadre Zachman
Le cadre Zachman est un cadre d’architecture d’entreprise qui utilise un format matriciel pour définir les relations entre différentes perspectives (telles que le propriétaire de l’entreprise, le concepteur et le constructeur) et six interrogations clés (quoi, comment, où, qui, quand et pourquoi). Les entreprises peuvent visualiser la manière dont les données s’intègrent à leurs opérations globales, en veillant à ce que les processus liés aux données soient conformes aux objectifs de l’entreprise et aux exigences du système. Le cadre Zachman est largement reconnu pour sa capacité à clarifier les dépendances des données et des systèmes à l’échelle de l’entreprise.
TOGAF
L’Open Group Architecture Framework (TOGAF) considère l’architecture de données comme un élément essentiel d’un système plus large, en mettant l’accent sur la création de modèles de données, de flux de données et de structures de gouvernance qui répondent aux besoins organisationnels. Il établit des processus de données normalisés, garantissant l’interopérabilité des systèmes et une gestion efficace des données. Il est particulièrement avantageux pour les grandes entreprises qui cherchent à aligner leurs stratégies informatiques et commerciales grâce à une approche unifiée.
Quelle comparaison existe‑t‑il entre l’architecture de données et d’autres termes connexes ?
Les différentes terminologies liées aux données semblent similaires mais ont des significations complètement différentes. Nous donnons quelques explications ci‑dessous.
Architecture de données et architecture de l’information
L’architecture de l’information constitue l’organisation des informations et leur présentation aux utilisateurs finaux. Le terme s’applique aux interfaces utilisateur, aux sites Web ou aux systèmes de contenu et concerne l’accessibilité des informations pour les utilisateurs finaux. Les principes et les outils de l’architecture de l’information se concentrent sur la navigation, la catégorisation et la capacité de recherche, par exemple dans une banque de connaissances en ligne ou une base de données documentaire.
De son côté, l’architecture de données se concentre sur la conception et la gestion de l’ensemble des données organisationnelles. Elle traite l’ensemble de l’infrastructure de données technique dorsale, tandis que l’architecture de l’information se concentre uniquement sur la manière dont les utilisateurs finaux interagissent avec les informations et les interprètent.
Architecture de données et ingénierie des données
L’ingénierie de données représente l’implémentation pratique de l’architecture de données. Les architectes de données fournissent un plan de haut niveau pour gérer les actifs de données d’une entreprise. Ils conçoivent des systèmes de données dotés d’une grande capacité de mise à l’échelle et conformes aux politiques de sécurité et aux objectifs de l’entreprise. Les ingénieurs de données implémentent le plan en créant, en gérant et en optimisant les pipelines de données. Ils garantissent que les données sont ingérées, nettoyées, transformées et transmises pour analyse conformément aux règles de l’architecture de données.
Architecture de données et modélisation des données
La modélisation de données est un processus intégré à l’architecture de données visant à créer une représentation visuelle de toute collecte de données. Cela inclut la création de modèles de données conceptuels, logiques et physiques qui décrivent les données collectées. Un modèle de données logique représente schématiquement les contraintes de données, les noms d’entités et les relations pour une implémentation indépendante de la plateforme. Le modèle de données physique affine davantage le modèle logique pour l’implémentation sur une technologie de données spécifique.
L’architecture de données a une portée bien plus large que la modélisation des données. Au‑delà des attributs des données et de leurs relations, elle définit également une stratégie plus large pour la gestion des données à l’échelle de l’entreprise. Elle inclut une infrastructure, des politiques et des technologies pour l’intégration des données conformes aux objectifs de l’entreprise.
Comment AWS peut‑il répondre à vos exigences en matière d’architecture de données ?
AWS fournit un ensemble complet de services d’analytique pour chaque couche de votre architecture de données, du stockage et de la gestion à la gouvernance des données et à l’IA. AWS propose des services conçus sur mesure offrant le meilleur rapport prix/performances, la plus haute capacité de mise à l’échelle et le coût le plus bas. Par exemple,
- Les bases de données sur AWS incluent plus de quinze services de base de données sur mesure permettant de prendre en charge divers modèles de données relationnels et non relationnels.
- Les lacs de données sur AWS incluent des services qui fournissent un stockage de données brutes illimité et créent des lacs de données sécurisés en quelques jours au lieu de plusieurs mois.
- L’intégration des données avec AWS inclut des services qui rassemblent des données provenant de sources multiples afin que vous puissiez transformer, opérationnaliser et gérer les données au sein de votre entreprise.
AWS Well-Architected aide les architectes de données cloud à créer une infrastructure sécurisée, performante, résiliente et efficace. Le Centre d’architecture AWS inclut des recommandations basées sur des cas d’utilisation pour l’implémentation de diverses architectures de données modernes dans votre entreprise.
Initiez‑vous dès aujourd’hui à l’architecture de données sur AWS en créant un compte gratuit.
Prochaines étapes sur AWS
Commencez à créer avec AWS dans la Console de gestion AWS.