Qu'est-ce que la gouvernance des données ?

La gouvernance des données inclut les processus et les politiques qui garantissent que les données sont en bon état pour soutenir les initiatives et les opérations commerciales. Les organisations modernes collectent des données provenant de diverses sources à grande échelle afin d’améliorer les opérations et la prestation de services. Cependant, la prise de décision basée sur les données n’est efficace que lorsque les données répondent aux normes de qualité et d’intégrité requises.

La gouvernance des données détermine les rôles, les responsabilités et les normes d’utilisation des données. Elle précise qui peut prendre telle ou telle mesure, sur la base de quelles données, en utilisant quelles méthodes et dans quelles situations. Alors que de plus en plus de données sont utilisées pour soutenir les cas d’utilisation de l’intelligence artificielle (IA) et du machine learning (ML), il est devenu essentiel que toutes les utilisations des données répondent aux exigences réglementaires et éthiques. La gouvernance des données équilibre la sécurité des données avec les objectifs tactiques et stratégiques en vue de garantir une efficacité maximale.

Pourquoi la gouvernance des données est-elle importante ?

Les programmes de gouvernance des données ont toujours été utilisés pour sécuriser les données dans des silos afin d’empêcher les fuites ou l’utilisation abusive des données. Cependant, ces silos sont accompagnés de barrières que les utilisateurs légitimes doivent franchir pour accéder aux données quand ils en ont besoin. Sans le vouloir, l'innovation axée sur les données est entravée.

Dans une enquête menée par le CDOIQ du MIT en 2024 auprès de 350 CDO et personnes occupant des postes à responsabilités équivalentes, 45 % des personnes interrogées identifient la gouvernance des données comme une priorité absolue. Ces leaders des données souhaitent établir un cadre de gouvernance des données qui leur permet de mettre les données à la disposition des bonnes personnes et applications en cas de besoin, tout en préservant la sécurité des données, avec des contrôles appropriés en place. 

Équilibre entre accès et contrôle

Vous disposez de deux leviers pour faire de la gouvernance un moteur d'innovation : l'accès et le contrôle. La clé du succès est de trouver le juste équilibre entre les deux : le point d’équilibre de chaque organisation étant différent. Lorsque vous exercez trop de contrôle, les données sont bloquées dans des silos et les utilisateurs ne peuvent pas y accéder lorsqu’ils en ont besoin. Cela entrave la créativité et conduit également à la création de systèmes informatiques parallèles qui rendent les données obsolètes et non sécurisées. En revanche, lorsque vous fournissez trop d’accès, les données risquent de ne pas être réglementées entre les applications et les magasins de données, ce qui augmente le risque d’accès non autorisé et affecte la qualité des données.

Les processus de gouvernance des données équilibrent l’accès et le contrôle, ce qui donne confiance aux utilisateurs dans les données. Ils favorisent la découverte, la conservation, la protection et le partage appropriés des données, en encourageant l’innovation tout en préservant les données.

Qu'est-ce que la gouvernance analytique ?

La gouvernance analytique concerne à la fois les données destinées à être utilisées dans les applications analytiques et l'utilisation des systèmes d'analytique. Votre équipe de gouvernance analytique peut établir des mécanismes de gouvernance, tels que la gestion des versions et la documentation des rapports d'analytique. Comme toujours, gardez un œil sur les exigences réglementaires, établissez une politique de l'entreprise et offrez des barrières de protection à l'ensemble de l'organisation.

Qu'est-ce que la gouvernance du machine learning (ML) ?

La plupart des pratiques de gouvernance du ML sont identiques à celle de la gouvernance des données. La qualité et l'intégration des données doivent fournir les données requises pour l'entraînement des modèles et le déploiement en production (les magasins de fonctionnalités constituent un aspect important à cet égard). L'intelligence artificielle (IA) responsable accorde une attention particulière à l'utilisation de données sensibles pour la génération de modèles. Les capacités supplémentaires de gouvernance du ML consistent notamment à permettre aux utilisateurs de participer à la création, au déploiement et à la surveillance des modèles, à documenter l'entraînement des modèles, la gestion des versions, les cas d'utilisation pris en charge et l'orientation de l'utilisation éthique des modèles, et à surveiller le modèle en production pour en vérifier la précision, la dérive, le surajustement et le sous-ajustement.

L'IA générative nécessite des capacités supplémentaires de gouvernance des données, telles que la qualité et l'intégrité des données afin de prendre en charge l'adaptation des modèles de base pour l'entraînement et l'inférence, la gouvernance de la toxicité et des biais de l'IA générative, et les opérations du modèle de fondation (FMOps).

Vous pouvez prendre en charge l'IA et le ML avec le même programme de gouvernance des données. La préparation des données est nécessaire pour transformer les données sous une forme que les modèles d'IA et de ML peuvent utiliser pour l'entraînement et l'inférence de production, mais la préparation des données la plus efficace est celle que vous n'avez pas à effectuer. Les data scientists passent trop de temps à préparer les données pour chaque cas d'utilisation. Votre équipe de gouvernance des données peut vous aider à soulager cette tâche lourde non différenciée. En outre, la gouvernance des données peut superviser la création de magasins de fonctionnalités modelés à utiliser dans les cas d'utilisation de l'IA et du ML.

Enfin, les données sensibles doivent être protégées de manière appropriée, afin que votre équipe puisse atténuer les risques liés à l'utilisation des données sensibles pour entraîner les modèles de base.

Tout comme l'analytique en général, vous devez gouverner l'utilisation des modèles d'IA et de ML que vous créez ou personnalisez. Idéalement, cette gouvernance devrait être étroitement associée à la gouvernance analytique afin de soutenir différents secteurs d'activité.

Quels sont les avantages de la gouvernance des données ?

La gouvernance des données offre un cadre structuré pour gérer les données à l’échelle d’une organisation. Voici quelques avantages clés.

Amélioration de la qualité des données

La gouvernance des données établit des normes en matière de précision, d’exhaustivité et de cohérence des données. Vous obtenez ainsi des données pertinentes, à jour et faciles à interpréter auxquelles toutes les parties prenantes font confiance. Ces données de haute qualité réduisent les erreurs et génèrent des informations précises et opportunes pour la prise de décisions stratégiques et opérationnelles.

Prise en charge d’une culture axée sur les données

Une stratégie de gouvernance des données efficace favorise une culture qui valorise les données, en encourageant tous les employés à utiliser et à comprendre les données dans leur travail. Elle encourage la participation de la communauté des entreprises et favorise l’intégration des données dans les domaines d’activité participants. L’alignement entre les ingénieurs de données et les utilisateurs professionnels stimule la connaissance des données et les capacités analytiques globales de l’organisation.

Amélioration de l’efficacité opérationnelle

La gouvernance des données aide à déterminer le bon modèle opérationnel, en particulier le niveau de centralisation et de décentralisation requis. Vous pouvez instaurer des pratiques de gestion des données cohérentes qui rationalisent les opérations. Une propriété des données et des droits d’accès clairement définis facilitent la collaboration entre les services, et garantissent que tout le monde travaille avec les mêmes sources de données fiables. Harmonisez les efforts des équipes afin de réduire les doublons, de réduire les coûts opérationnels et d’améliorer la productivité.

Soutenir la conformité réglementaire

Les cadres de gouvernance des données adoptent une approche proactive de la gestion des risques, en veillant à ce que les pratiques en matière de données soient conformes aux réglementations légales et sectorielles. Vous pouvez empêcher tout accès non autorisé grâce à des politiques définies de manière centralisée indiquant qui peut accéder aux données ou les modifier. Les outils de gouvernance des données favorisent la conformité aux réglementations en matière de confidentialité afin de protéger les données sensibles.

Qui établit la gouvernance des données ?

L’élaboration d’une stratégie de gouvernance des données robuste nécessite de nombreuses fonctions.

Sponsors exécutifs

Ils identifient et établissent les principes, les normes et les politiques de gouvernance des données dans l’ensemble de l’organisation. En outre, ils comprennent de nombreuses initiatives commerciales de la feuille de route de l’entreprise et ils peuvent contribuer à déterminer les priorités pour soutenir les activités de gouvernance des données.

Gestionnaires de données

Ils font partie de l’entreprise et sont impliqués dans les projets au quotidien. Ils aident à détecter les problèmes liés aux données pouvant entraîner des difficultés grâce à des initiatives commerciales ciblées. Ils mettent également en œuvre le processus de gouvernance des données dans leurs projets et veillent à ce que les données soient gérées comme il se doit. Ils surveillent la conformité des employés et des clients et signalent tout problème éventuel.

Propriétaires de données

Ils élaborent des politiques concernant les données, notamment qui y a accès et dans quelles circonstances, comment interpréter et appliquer les réglementations, ainsi que la définition des principaux termes. Ils sont également responsables de l’administration technique de vos jeux de données et des contrôles d’accès.

Ingénieurs de données

Ils sont issus du service informatique, ils sélectionnent et ils mettent en œuvre les meilleurs outils de gouvernance des données pour sécuriser les données, intégrer des données provenant de différentes sources, gérer la qualité des données et trouver les données appropriées.

Quels sont les différents styles de gouvernance des données ?

Pour votre programme de gouvernance des données, vous devez trouver un équilibre entre centralisation et décentralisation (libre-service compris). L'organisation, dans son ensemble, présente une combinaison de gouvernance centralisée, fédérée et décentralisée, là encore selon les besoins métiers. Vous devez autonomiser autant que possible les différentes équipes, tout en préservant la cohérence entre elles (par exemple, permettre de relier les données).  

Gouvernance centralisée des données

Les services centraux sont les principaux responsables des rapports de missions, des politiques, du choix des outils, etc. Cependant, les actions quotidiennes sont souvent intégrées aux secteurs d’activité.

Gouvernance des données fédérée

La gouvernance fédérée des données permet de répondre au mieux aux besoins des différentes unités opérationnelles ou initiatives commerciales. Cependant, une petite équipe centralisée se concentre sur la résolution de problèmes qui se répètent fréquemment, notamment en utilisant des outils de qualité des données à l’échelle de l’entreprise, par exemple.

Gouvernance des données en libre-service ou décentralisée

Chaque service fait ce dont il a besoin pour le projet spécifique tout en s’alignant sur des politiques centralisées. Chaque projet utilise tous les outils ou processus utilisés pour d'autres projets et qui sont adaptés. Les sujets tels que le maillage de données (lui-même décentralisé) devenant de plus en plus centraux, la gouvernance des données en libre-service augmente elle aussi. 

Comment fonctionne la gouvernance des données ?

La gouvernance des données nécessite des solutions de ressources humaines, de processus et de technologies intégrant un large éventail de capacités.

tableau du mode de fonctionnement de la gouvernance des données

Organiser les données à grande échelle pour limiter leur dispersion

Pour organiser vos données à l’échelle, vous devez identifier et gérer vos sources de données les plus précieuses, notamment les bases de données, les lacs de données et les entrepôts de données. Vous pouvez limiter la prolifération et la transformation des actifs de données critiques. L’organisation des données implique également de s’assurer qu’elles sont exactes, à jour et exemptes d’informations sensibles, afin que les utilisateurs puissent avoir confiance dans les décisions basées sur les données et dans les applications d’alimentation de données.

Capacités : gestion de la qualité des données, intégration des données et gestion des données principales

Découvrez et comprenez vos données dans leur contexte.

Comprendre vos données dans leur contexte signifie que tous les utilisateurs peuvent découvrir et comprendre la signification de leurs données afin de pouvoir les utiliser en toute confiance pour créer de la valeur métier. Un catalogue de données centralisé permet de trouver facilement les données, de demander leur accès et de les utiliser pour prendre des décisions métier.

Capacités : profilage des données, lignage des données et catalogues de données

Protégez et partagez vos données en toute sécurité avec contrôle et confiance.

Pour protéger vos données, vous devez trouver le juste équilibre entre confidentialité, sécurité et accès aux données. Il est essentiel de gérer l’accès aux données au-delà des frontières organisationnelles, à l’aide d’outils intuitifs à destination des utilisateurs professionnels et techniques.

Capacités : cycle de vie, conformité et sécurité des données

Réduisez les risques métier et améliorez la conformité réglementaire.

Pour réduire les risques, il est nécessaire de comprendre comment les données sont utilisées et par qui. Les services AWS vous aident à surveiller et à auditer l’accès aux données, y compris l’accès via des modèles de ML, afin de garantir la sécurité des données et la conformité réglementaire. Le machine learning nécessite également la transparence des audits pour garantir une utilisation responsable et des rapports simplifiés.

Capacités : audit de l'utilisation des données et ML

 

Quelles sont les bonnes pratiques en matière de gouvernance des données ?

Pour que la gouvernance des données soit efficace, la clé est de l’associer à des initiatives métier déjà financées. Assurez-vous que votre équipe comprend les domaines, les sources et les éléments de données nécessaires pour soutenir ces initiatives.

  • Élaborez une feuille de route de gouvernance des données qui soutient des initiatives commerciales ciblées. Commencez ensuite à identifier les données qui se chevauchent entre les initiatives commerciales choisies.
  • Identifiez les applications et les cas d'utilisation de la Business Intelligence que les données doivent prendre en charge et alimenter, y compris les exigences en matière d'actualisation et de confidentialité.
  • Découvrez à quoi ressemblent les données adaptées à l'objectif pour chaque initiative commerciale choisie.
  • Soutenez et développez en intégrant la gouvernance au modèle opérationnel de l’entreprise, de sorte que la planification et la mise en œuvre des données fassent partie intégrante du fonctionnement de l’organisation.
  • Organisez la communauté dédiée à l'analytique de façon à privilégier le libre-service et la cohérence.
  • Appuyez l’intelligence artificielle (IA) et le machine learning (ML) grâce à la gouvernance des données et à la gouvernance du ML. Utilisez le même programme de gouvernance des données pour les magasins de fonctionnalités et les modèles de ML.

Comment pouvez-vous améliorer l'efficacité de vos équipes chargées de la gouvernance des données ?

Pour qu'un programme de gouvernance des données soit efficace, la clé est de l'associer à des initiatives commerciales déjà financées. Assurez-vous que votre équipe comprend les domaines, les sources et les éléments de données nécessaires pour soutenir ces initiatives.

  • Élaborez une feuille de route de gouvernance des données qui soutient des initiatives commerciales ciblées. Commencez ensuite à identifier les données qui se chevauchent entre les initiatives commerciales choisies.
  • Identifiez les applications et les cas d'utilisation de la Business Intelligence que les données doivent prendre en charge et alimenter, y compris les exigences en matière d'actualisation et de confidentialité.
  • Découvrez à quoi ressemblent les données adaptées à l'objectif pour chaque initiative commerciale choisie.
  • Soutenez et développez le programme de gouvernance des données en l'intégrant au modèle opérationnel de l'entreprise, de sorte que la planification et la mise en œuvre des données fassent partie intégrante du fonctionnement de l'organisation.
  • Organisez la communauté dédiée à l'analytique de façon à privilégier le libre-service et la cohérence.
  • Appuyez l’intelligence artificielle (IA) et le machine learning (ML) grâce à la gouvernance des données et à la gouvernance du ML. Utilisez le même programme de gouvernance des données pour les magasins de fonctionnalités et les modèles de ML.

Quel est l’impact de la gouvernance des données sur l’analytique, le machine learning et l’intelligence artificielle ?

La gouvernance des données joue un rôle clé dans les cas d’utilisation gourmands en données.

Gouvernance analytique

La gouvernance analytique concerne à la fois les données destinées à être utilisées dans les applications analytiques et l’utilisation des systèmes d’analytique. Votre équipe de gouvernance analytique peut établir des mécanismes de gouvernance, tels que la gestion des versions et la documentation des rapports d'analytique. Comme toujours, gardez un œil sur les exigences réglementaires, établissez une politique de l'entreprise et offrez des barrières de protection à l'ensemble de l'organisation.

Gouvernance de l’IA

La gouvernance de l’IA applique bon nombre des mêmes pratiques de gouvernance des données aux cas d’utilisation de l’IA et du ML. La qualité et l’intégration des données doivent fournir les données requises pour l’entraînement des modèles et le déploiement en production (les magasins de fonctionnalités constituent un aspect important à cet égard). L’intelligence artificielle (IA) responsable accorde une attention particulière à l’utilisation de données sensibles pour la génération de modèles. Les capacités supplémentaires de gouvernance de l’IA consistent notamment à permettre aux utilisateurs de participer à la création, au déploiement et à la surveillance des modèles, à documenter l’entraînement de modèle, la gestion des versions, les cas d’utilisation pris en charge et l’orientation de l’utilisation éthique des modèles, et à surveiller le modèle en production pour en vérifier la précision, la dérive, le surajustement et le sous-ajustement.

L’IA générative nécessite des capacités supplémentaires de gouvernance des données, telles que la qualité et l’intégrité des données afin de prendre en charge l’adaptation des modèles de base pour l’entraînement et l’inférence, la gouvernance de la toxicité et des biais de l’IA générative, et les opérations du modèle de fondation (FM) : FMOps.

Vous pouvez prendre en charge l'IA et le ML avec le même programme de gouvernance des données. La préparation des données est nécessaire pour transformer les données sous une forme que les modèles d’IA et de ML peuvent utiliser pour l’entraînement et l’inférence de production, mais la préparation des données la plus efficace est celle que vous n’avez pas à effectuer. Les data scientists passent trop de temps à préparer les données pour chaque cas d'utilisation. Votre équipe de gouvernance des données peut vous aider à soulager cette tâche lourde non différenciée. En outre, la gouvernance des données peut superviser la création de magasins de fonctionnalités modelés pour les cas d’utilisation de l’IA et du ML.

Enfin, les données sensibles doivent être protégées de manière appropriée, afin que votre équipe puisse atténuer les risques liés à l’utilisation des données sensibles pour entraîner les modèles de fondation.

Tout comme l’analytique, vous devez gouverner l’utilisation des modèles d’IA et de ML que vous créez ou personnalisez. Idéalement, cette gouvernance devrait être étroitement associée à la gouvernance analytique afin de soutenir différents secteurs d'activité.

Quels sont les principaux défis de la gouvernance des données ?

Le défi stratégique le plus courant en matière de gouvernance des données est de réussir à aligner le programme avec les initiatives métier au lieu de mettre en avant l’importance de la gouvernance des données directement. Par exemple, vous pouvez mettre en avant l'importance de permettre aux utilisateurs finaux de trouver plus facilement les données qu'ils recherchent, ou bien mettre en avant l'importance de résoudre les problèmes liés à la qualité des données. Mais ce sont là des solutions à la recherche d'un problème. Si vous procédez ainsi, vous vous retrouverez en concurrence, pour le financement et le parrainage, avec des initiatives métier que vous êtes censé soutenir. À la place, faites en sorte que la gouvernance des données soutienne les initiatives métier. Chaque initiative métier d'envergure nécessite des données. La gouvernance des données doit garantir que les données sont en bon état pour favoriser la réussite des initiatives métier. Veillez à établir des rapports et des audits pour savoir comment la gouvernance des données soutient ces initiatives.

Un autre enjeu stratégique courant est d’éviter d’appliquer la gouvernance des données de manière trop étroite. Une gouvernance des données trop étroite peut signifier un alignement du programme sur des domaines d’activité ou des cas d’utilisation de manière séparée, sans prendre en compte l’ensemble des domaines d’activité. Elle peut également être définie comme se limitant à seulement une ou deux capacités. Par exemple, le fait de disposer d'un catalogue de données ne constitue pas un programme de gouvernance des données.

Quelles sont les offres d'AWS pour la gouvernance des données ?

Grâce à la gouvernance des données de bout en bout sur AWS, les entreprises peuvent contrôler où se trouvent leurs données, qui y a accès et ce qui peut être fait avec elles à chaque étape du flux de travail des données. La gouvernance des données avec AWS aide les entreprises à accélérer les décisions basées sur les données en permettant aux bonnes personnes et aux bonnes applications de trouver les bonnes données, d'y accéder et de les partager facilement, en toute sécurité et lorsqu'elles en ont besoin. Vous pouvez organiser les données en automatisant leur intégration et leur qualité afin de limiter leur prolifération. Vous pouvez découvrir et comprendre vos données grâce à des catalogues centralisés qui améliorent la connaissance des données. Vous pouvez protéger vos données grâce à des autorisations précises qui vous permettent de les partager en toute confiance. 

Vous pouvez réduire les risques et améliorer la conformité réglementaire en surveillant et en auditant l'accès aux données.

  • Amazon DataZone : débloquez les données au-delà des frontières organisationnelles avec une gouvernance intégrée
  • AWS Glue : découvrez, préparez et intégrez toutes vos données à n’importe quelle échelle
  • AWS Lake Formation : créez, gérez et sécurisez des lacs de données en quelques jours
  • Amazon QuickSight : l’informatique décisionnelle unifiée à très grande échelle
  • Amazon SageMaker : créez, entraînez et déployez rapidement et facilement des modèles de machine learning pour tous les cas d’utilisation avec une infrastructure, des outils et des flux de travail entièrement gérés
  • Page Web sur la gouvernance du machine learning
  • Amazon Bedrock : créez et mettez à l’échelle des applications d’IA générative à l’aide de modèles de fondation (FM)
  • Amazon Macie : découvrez et protégez les données sensibles à grande échelle
  • Points d’accès Amazon Simple Storage Service (Amazon S3) : un stockage d’objets conçu pour extraire n’importe quelle quantité de données, depuis n’importe où
  • AWS Data Exchange : découvrez et abonnez-vous facilement aux données de tiers dans le cloud afin de les utiliser
  • AWS Clean Rooms : créez des salles blanches en quelques minutes pour collaborer avec vos partenaires sans dévoiler les données brutes

Commencez à utiliser la gouvernance des données sur AWS en créant un compte gratuit dès aujourd’hui.

Prochaines étapes sur AWS

Consultez d'autres ressources relatives aux produits
En savoir plus sur les services d'analytique AWS 
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter