Qu'est-ce que le zéro ETL ?
Le zéro ETL est un ensemble d'intégrations qui élimine ou minimise le besoin de créer des pipelines de données ETL. L’extraction, transformation et chargement (ETL) est un processus qui consiste à combiner, à nettoyer et à normaliser des données provenant de différentes sources afin de les préparer pour les charges de travail d’analytique, d’intelligence artificielle (IA) et de machine learning (ML). Les processus ETL traditionnels prennent du temps et sont complexes à développer, à maintenir et à mettre à l'échelle. Au contraire, les intégrations zéro ETL facilitent le mouvement des données point à point sans qu'il soit nécessaire de créer des pipelines de données ETL. Le zéro ETL peut également permettre d'effectuer des requêtes à travers des silos de données sans qu'il soit nécessaire de déplacer celles-ci.
Quels problèmes en matière d'ETL l'intégration zéro ETL résout-elle ?
Les intégrations zéro ETL résolvent de nombreux problèmes existants en matière de transfert de données dans les processus ETL traditionnels.
Complexité accrue du système
Les pipelines de données ETL apportent un niveau de complexité supplémentaire à vos efforts d'intégration des données. Le mappage des données pour qu'elles correspondent au schéma cible souhaité fait appel à des règles de mappage de données complexes et à la gestion des incohérences et des conflits de données. Vous devez mettre en œuvre des mécanismes efficaces de gestion des erreurs, de journalisation et de notification pour diagnostiquer les problèmes. Les exigences en matière de sécurité des données amplifient davantage les contraintes qui pèsent sur le système.
Coûts supplémentaires
Les coûts des pipelines ETL sont élevés au départ, mais peuvent grimper en flèche en fonction du volume de données. Le stockage de données dupliquées entre systèmes peut ne pas être abordable pour de gros volumes de données. En outre, la mise à l'échelle des processus ETL nécessite souvent des mises à niveau coûteuses de l'infrastructure, une optimisation des performances des requêtes et des techniques de traitement parallèle. Si les exigences changent, l'ingénierie des données doit constamment surveiller et tester le pipeline lors du processus de mise à jour, ce qui augmente les coûts de maintenance.
Analytique, IA et ML différés
En règle générale, l'ETL fait appel à des ingénieurs de données pour créer du code personnalisé, ainsi qu'à des ingénieurs DevOps pour déployer et gérer l'infrastructure requise pour mettre à l'échelle la charge de travail. En cas de modification des sources de données, les ingénieurs de données doivent modifier manuellement leur code et le déployer à nouveau. Le processus peut prendre des semaines, ce qui entraîne des retards dans l'exécution des charges de travail d'analytique, d'intelligence artificielle et de machine learning. En outre, le temps nécessaire à la création et au déploiement de pipelines de données ETL rend les données impropres à des cas d'utilisation en temps quasi réel tels que la diffusion de publicités en ligne, la détection de transactions frauduleuses ou l'analyse de la chaîne d'approvisionnement en temps réel. Dans ces scénarios, l'occasion d'améliorer l'expérience client, de saisir de nouvelles opportunités commerciales ou de réduire les risques commerciaux est perdue.
Quels sont les avantages du zéro ETL ?
Le zéro ETL présente plusieurs avantages pour la stratégie de données d'une organisation.
Une plus grande agilité
Le zéro ETL simplifie l'architecture et l'ingénierie des données. Il permet d'inclure de nouvelles sources de données sans avoir à retraiter de grandes quantités de données. Cette flexibilité améliore l'agilité, soutenant la prise de décisions fondée sur les données et l'innovation rapide.
Rentabilité
Le zéro ETL utilise des technologies d'intégration de données natives cloud et évolutives, permettant aux entreprises d'optimiser les coûts en fonction de l'utilisation réelle et des besoins de traitement des données. Il aide les entreprises à réduire les coûts d'infrastructure, les efforts de développement et les frais de maintenance.
Informations en temps réel
Les processus ETL traditionnels impliquent souvent des mises à jour périodiques par lots, ce qui retarde la disponibilité des données. Le zéro ETL, quant à lui, fournit un accès en temps réel ou quasi réel aux données, garantissant ainsi des données plus à jour pour l'analytique, l'IA/ML et les rapports. Vous obtenez des informations plus précises et actualisées pour des cas d'utilisation tels que les tableaux de bord en temps réel, l'optimisation de l'expérience de jeu, la surveillance de la qualité des données et l'analyse du comportement des clients. Les entreprises font des prévisions basées sur les données avec plus de confiance, améliorent l'expérience client et diffusent des informations axées sur les données dans l'ensemble de l'organisation.
Quels sont les différents cas d'utilisation du zéro ETL ?
Il existe trois principaux cas d'utilisation du zéro ETL.
Requêtes fédérées
Les technologies de requêtes fédérées permettent d'interroger diverses sources de données sans avoir à se soucier des mouvements des données. Vous pouvez utiliser des commandes SQL courantes pour exécuter des requêtes et joindre des données dans plusieurs sources, telles que les bases de données opérationnelles, les entrepôts de données et les lacs de données. Les grilles de données en mémoire (IMDG) stockent les données en mémoire aux fins de mise en cache et de traitement, de sorte que vous puissiez bénéficier d'une analyse immédiate et de temps de réponse aux requêtes avantageux. Vous pouvez ensuite stocker les résultats de la jointure dans un magasin de données pour une analyse plus approfondie et une utilisation ultérieure.
Ingestion de streaming
Les plateformes de streaming de données et de mise en file d'attente de messages diffusent des données en temps réel provenant de plusieurs sources. Une intégration zéro ETL à un entrepôt de données vous permet d'ingérer des données provenant de plusieurs flux de ce type et de les soumettre à l'analytique quasi instantanément. Il n'est pas nécessaire de préparer les données de streaming pour la transformation sur un autre service de stockage.
Réplication instantanée
Traditionnellement, le transfert de données d'une base de données transactionnelle vers un entrepôt de données central nécessitait systématiquement une solution ETL complexe. De nos jours, le zéro ETL peut servir d'outil de réplication des données, les dupliquant instantanément de la base de données transactionnelle vers l'entrepôt de données. Le mécanisme de duplication utilise des techniques de capture de données modifiées (CDC) et peut être intégré à l'entrepôt de données. La duplication est invisible pour les utilisateurs : les applications stockent les données dans la base de données transactionnelle et les analystes émettent des requêtes de données depuis l'entrepôt de manière fluide.
Comment les services AWS peuvent-ils soutenir vos efforts visant à éliminer l'ETL ?
AWS investit dans un avenir sans ETL. Voici des exemples de services qui offrent une prise en charge intégrée du zéro ETL.
Amazon Athena est un service d'analytique sans serveur et interactif basé sur des cadres open source, qui prend en charge les formats de tables et de fichiers ouverts. Athena permet d'analyser plusieurs téraoctets de données là où elles se trouvent, de manière simple et flexible. Vous pouvez analyser des données ou créer des applications à partir d'un lac de données Amazon Simple Storage Service (S3) et de 30 sources de données, dont des sources de données sur site ou d'autres systèmes cloud, et ce, à l'aide de SQL ou Python. Athena est un service conçu sur les moteurs open source Trino et Presto et sur les cadres Apache Spark. Il ne nécessite pas d'approvisionnement ni de configuration.
L'ingestion de streaming d'Amazon Redshift ingère des centaines de mégaoctets de données par seconde à partir d'Amazon Kinesis Data Streams ou d'Amazon MSK. Définissez un schéma ou choisissez d'ingérer des données semi-structurées avec le type de données SUPER afin d'effectuer des requêtes de données en temps réel.
L'intégration zéro ETL d'Amazon Aurora à Amazon Redshift permet d'effectuer l'analytique et le machine learning (ML) en temps quasi réel. Elle utilise Amazon Redshift pour les charges de travail d'analytique portant sur des pétaoctets de données transactionnelles provenant d'Aurora. Il s'agit d'une solution entièrement gérée qui permet de rendre les données transactionnelles disponibles dans Amazon Redshift après leur écriture dans un cluster de bases de données Aurora.
La copie automatique d'Amazon Redshift depuis S3 simplifie et automatise l'ingestion de fichiers dans Amazon Redshift. Cette fonctionnalité ingère les données en continu au fur et à mesure de la création de nouveaux fichiers dans S3, sans codage personnalisé ni activité d'ingestion manuelle.
Le contrôle d'accès au partage de données avec AWS Lake Formation gère de manière centralisée l'accès granulaire aux données partagées au sein de votre organisation. Vous pouvez définir, modifier et auditer les autorisations sur les tables, les colonnes et les lignes dans Amazon Redshift.
Démarrez avec le zéro ETL sur AWS en créant gratuitement un compte dès aujourd'hui !