Tarification AWS Glue

Pourquoi choisir Glue ?

Avec AWS Glue, vous payez un taux horaire facturé à la seconde pour les robots (la recherche de données) et les tâches d’extraction, transformation et chargement ETL (traitement et chargement de données). Pour le catalogue de données AWS Glue, vous payez des frais mensuels simplifiés pour stocker et accéder aux métadonnées. Le premier million d'objets stockés est gratuit, ainsi que le premier million d'accès. Si vous mettez en service un point de terminaison de développement pour développer votre code ETL de façon interactive, vous payez un taux horaire facturé à la seconde. Pour AWS Glue DataBrew, les séances interactives sont facturées par séance et les tâches DataBrew sont facturées par minute. L'utilisation d'AWS Glue Schema Registry est proposée sans frais supplémentaires.

Remarque : la tarification peut varier en fonction de la région AWS.

Tâches ETL et sessions interactives
Exemples de tarification

Tâche ETL : imaginez une tâche AWS Glue Apache Spark qui s’exécute pendant 15 minutes et utilise 6 DPU. Le prix d’une DPU par heure est de 0,44 USD. Étant donné que votre tâche a duré 15 minutes et a utilisé 6 DPU, AWS vous facturera 6 DPU * 0,25 heure * 0,44 USD, soit 0,66 USD.

Bloc-notes de tâches et sessions interactives AWS Glue Studio : imaginons que vous utilisiez un bloc-notes dans AWS Glue Studio pour développer votre code ETL de manière interactive. Une session interactive a 5 DPU par défaut. Le prix d’une DPU par heure est de 0,44 USD. Si vous maintenez la session en cours pendant 24 minutes, 5 DPU * 0,4 heure * 0,44 USD, soit 0,88 USD vous seront facturés.
Catalogue de données
Le catalogue de données AWS Glue est le référentiel de métadonnées techniques centralisé pour tous vos actifs de données provenant de différentes sources de données, notamment d’Amazon S3, d’Amazon Redshift et des sources de données tierces. Le catalogue de données est accessible depuis Amazon SageMaker Lakehouse pour les données, l’analytique et l’IA. Il fournit une interface unifiée permettant d’organiser les données sous forme de catalogues, de bases de données et de tables et de les interroger depuis Amazon Redshift, Amazon Athena et Amazon EMR. Les fonctionnalités d’AWS Lake Formation dans le catalogue de données vous permettent de centraliser la gouvernance des données dans AWS. Gérez les actifs de données à l’aide d’autorisations de données précises et de fonctionnalités d’un type base de données familier.

Lorsque vous utilisez le catalogue de données, vous êtes facturé pour le stockage et l’accès aux métadonnées du tableau, ainsi que pour l’exécution de tâches de traitement des données qui calculent les statistiques des tables et les optimisent.

Tarification des métadonnées

Avec le catalogue de données, vous pouvez stocker jusqu’à un million d’objets gratuitement. Si vous stockez plus d’un million d’objets de métadonnées, vous serez facturé 1,00 USD par tranche de 100 000 objets au-delà du premier million par mois. Un objet de métadonnées dans le catalogue de données est une table, une version de table, une partition, des index de partition, des statistiques, une base de données ou un catalogue.
Maintenance des tables et statistiques

Le catalogue de données fournit un compactage géré pour les tables Apache Iceberg dans le stockage d’objets Amazon S3, en compactant les petits objets en objets plus grands pour améliorer les performances de lecture par les services analytiques AWS tels qu’Amazon Redshift, Athena, Amazon EMR et les tâches ETL d’AWS Glue. Un taux horaire vous est facturé en fonction du nombre d’unités de traitement des données (ou DPU) utilisées pour le compactage de la table. Une seule unité de traitement des données (DPU) fournit 4 vCPU et 16 Go de mémoire. Vous êtes facturé par tranches de 1 seconde, arrondies à la seconde supérieure, avec une durée minimale de 1 minute par exécution.

Le catalogue de données prend également en charge les statistiques des tables au niveau des colonnes pour les tables AWS Glue. Ces statistiques sont intégrées à l’optimiseur basé sur les coûts (CBO) dans les requêtes Athena et du lac de données d’Amazon Redshift, ce qui permet d’améliorer les performances des requêtes et de réaliser de potentielles économies.

Optimisation
- 0,44 USD par DPU par heure pour l’optimisation des tables Apache Iceberg, facturés par seconde avec un minimum d’une minute.
Statistiques :
- 0,44 USD par DPU par heure pour la génération de statistiques, facturé par seconde avec un minimum d’une minute.
Utilisation et coûts supplémentaires

Stockage

À l’aide du catalogue de données, vous pouvez créer et gérer des tables dans Amazon S3 et Amazon Redshift, et les tarifs standards Amazon S3 ou Amazon Redshift vous sont facturés respectivement pour le stockage des tables. Aucun coût de stockage supplémentaire n’est prévu dans le catalogue de données.

1. Lorsque vous stockez les données dans Amazon S3, le stockage, les demandes et le transfert de données sont facturés selon les tarifs Amazon S3 standards. Consultez la tarification Amazon S3 pour en savoir plus.

2. Lorsque vous stockez des données dans Amazon Redshift, les tarifs de stockage standards d’Amazon Redshift vous sont facturés. Pour en savoir plus, consultez la page de Tarification d’Amazon Redshift.

Calcul

Lorsque vous accédez aux tables Amazon Redshift à partir d’Amazon EMR, d’AWS Glue, d’Athena ou de tout autre moteur open source ou tiers compatible avec Apache Iceberg, un groupe de travail Amazon Redshift sans serveur géré par des services est utilisé pour les ressources de calcul. Le groupe de travail géré Amazon Redshift sans serveur est utilisé pour filtrer les résultats des tables, et les ressources de calcul que vous utilisez vous sont facturées sur la base des tarifs standards d’Amazon Redshift sans serveur. Les requêtes de tables stockées dans Amazon Redshift à l’aide d’Amazon Redshift ne sont pas facturées séparément. Consultez la page de Tarification d’Amazon Redshift pour en savoir plus.

Autorisations Lake Formation

Lake Formation s’intègre au catalogue de données et fournit des autorisations au niveau des bases de données, des tables, des colonnes, des lignes et des cellules à l’aide du partage entre comptes et de contrôles d’accès basés sur des balises ou des noms. Des frais distincts ne s’appliquent pas lors de la création d’autorisations Lake Formation ou de l’utilisation des autorisations Lake Formation avec des services AWS intégrés.

Exemples de tarification

Catalogue de données sur l’offre gratuite AWS : supposons que vous stockez un million d’objets de métadonnées dans le catalogue de données au cours d’un mois donné et que vous effectuez un million de demandes de métadonnées pour accéder à ces tables. Vous devez payer 0 USD, car votre utilisation rentre dans l’offre gratuite du catalogue de données AWS Glue. Le premier million d’objets stockés et le premier million de requêtes effectuées sont gratuits.

Niveau standard du catalogue de données : considérez maintenant que votre utilisation du stockage de métadonnées reste la même, à savoir 1 million d’objets de métadonnées par mois, mais que le nombre de vos demandes double pour atteindre 2 millions de demandes de métadonnées par mois. Supposons également que vous utilisez des robots pour trouver de nouvelles tables et qu’ils fonctionnent pendant 30 minutes et consomment 2 DPU.

Vos frais de stockage restent à 0 USD, étant donné que le stockage du premier million de tables est gratuit. Votre premier million de requêtes est également gratuit. Vous serez facturé pour le premier million de requêtes au-delà de l’offre gratuite, ce qui équivaut à 1 USD.

Utilisation du catalogue de données avec d’autres services :

Par exemple, lorsque vous interrogez des tables dans Amazon Redshift à l’aide d’Athena SQL dans SageMaker Lakehouse, vous êtes facturé pour : le stockage des tables dans Amazon Redshift selon la tarification standard d’Amazon Redshift ; la demande de métadonnées faite au catalogue de données sur la base de la demande de tarification standard du catalogue de données ; le stockage des métadonnées pour le stockage des métadonnées du catalogue, de la base de données et des tables dans le catalogue de données ; les heures par RPU d’Amazon Redshift sans serveur sur une base par seconde (avec un coût minimum de 60 secondes) pour filtrer les résultats des tables Amazon Redshift ; et le nombre d’octets scannés par la requête Athena, arrondi au mégaoctet le plus proche, avec un minimum de 10 Mo par requête, selon la tarification Athena standard.

Dans un autre scénario où vous interrogez des tables dans Amazon Redshift à l’aide d’Amazon EMR sans serveur, vous serez facturé pour : le stockage des tables dans Amazon Redshift selon la tarification standard d’Amazon Redshift ; la demande de métadonnées faite au catalogue de données sur la base de la demande de tarification standard du catalogue de données ; le stockage des métadonnées pour le stockage des métadonnées du catalogue, de la base de données et des tables dans le catalogue de données ; les heures par RPU d’Amazon Redshift sans serveur par seconde (avec un coût minimum de 60 secondes) pour le filtrage des résultats de la table Amazon Redshift ; et la quantité de vCPU, de mémoires et de ressources de stockage consommés par vos employés dans une application Amazon EMR.

Dans un autre scénario où vous interrogez des tables Apache Iceberg dans le stockage d’objets Amazon S3 à l’aide d’Amazon Redshift sans serveur, vous serez facturé pour : le stockage des tables Apache Iceberg dans Amazon S3 sur la base de la tarification standard d’Amazon S3 ; la demande de métadonnées envoyée au catalogue de données sur la base de la demande de tarification standard du catalogue de données ; le stockage des métadonnées pour stocker des métadonnées du catalogue, de la base de données et des tables dans le catalogue de données ; et les heures de calcul (heures par RPU) basées sur la tarification standard d’Amazon Redshift.

Les robots AWS Glue sont facturés au taux de 0,44 USD par DPU par heure. Vous devrez donc payer pour 2 DPU * 0,5 heure à un taux de 0,44 USD par DPU par heure, soit 0,44 USD.

Si vous générez des statistiques pour des tables AWS Glue et que l’exécution des statistiques prend 10 minutes et consomme 1 DPU, vous serez facturé 1 DPU * 0,1666 heure * 0,44 USD/DPU/heure, soit 0,07 USD.

Si vous compactez des tables Apache Iceberg stockées dans le stockage d’objets Amazon S3 et que le compactage dure 30 minutes et consomme 2 DPU, vous serez facturé 2 DPU * 0,5 heure * 0,44 USD/DPU/heure, soit 0,44 USD par DPU par heure.
Robots
Séances interactives DataBrew
Exemples de tarification

AWS Glue DataBrew : Le prix pour chaque séance interactive de 30 minutes s'élève à 1,00 USD. Si vous démarrez une séance à 9h00, et si vous quittez immédiatement la console et n'y revenez qu'entre 9h20 et 9h30, vous serez facturé pour 1 séance, pour un total de 1,00 USD.

Si vous démarrez un séance à 9h00 et que vous interagissez avec la console DataBrew jusqu'à 9h50, quittez l'espace de projet DataBrew et revenez-y pour la dernière interaction à 10h15. Ainsi, vous serez facturé pour 3 séances et donc un total de 1,00 USD, à raison de 3,00 USD par séance.
Tâches DataBrew
Exemples de tarification

AWS Glue DataBrew : Si une tâche AWS Glue DataBrew s'exécute pendant 10 minutes et consomme 5 nœuds DataBrew, le prix s'élève à 0,40 USD. Votre tâche ayant été exécutée pendant 1/6 d'heure et ayant consommé 5 nœuds, votre facturation est de 5 nœuds x 1/6 heure/nœud x 0,48 USD/nœud-heure = 0,40 USD.
Qualité des données
La qualité des données d’AWS Glue renforce la confiance dans vos données en vous aidant à obtenir une qualité de données élevée. Il mesure, surveille et gère automatiquement la qualité des données dans vos lacs de données et vos pipelines en facilitant l'identification des données manquantes, périmées ou mauvaises.

Vous pouvez accéder aux fonctionnalités de Catalogue de données et AWS Glue Studio et par le biais des API AWS Glue.

Tarification pour la gestion de la qualité des données des jeux de données catalogués dans le catalogue de données :

Vous pouvez choisir un jeu de données dans le catalogue de données et générer des recommandations. Cette action créera une tâche de recommandation pour laquelle vous fournirez des unités de traitement de données (DPU). Après avoir obtenu les recommandations, vous pouvez modifier ou ajouter de nouvelles règles et les programmer. Ces tâches sont appelées tâches de qualité des données pour lesquelles vous allez fournir des DPU. Vous aurez besoin d’un minimum de 2 DPU avec une durée de facturation minimale d’une minute.

Tarification pour la gestion de la qualité des données des jeux de données traités sur AWS Glue ETL :

Vous pouvez également ajouter des contrôles de qualité des données à vos tâches ETL afin d’empêcher les mauvaises données d’entrer dans les lacs de données. Ces règles de qualité des données résideront dans vos tâches ETL, ce qui entraînera une augmentation du temps d’exécution ou de la consommation de DPU. Vous pouvez également utiliser l’exécution flexible pour les charges de travail non sensibles aux SLA.

Tarification de la détection d’anomalies dans AWS Glue ETL :

Détection des anomalies :
Vous devrez payer 1 DPU par statistique en plus des DPU de vos tâches ETL pendant le temps nécessaire à la détection des anomalies. En moyenne, il faut entre 10 et 20 secondes pour détecter une anomalie pour une statistique. Supposons que vous ayez configuré deux règles (Règle 1 : le volume de données doit être supérieur à 1 000 enregistrements, Règle 2 : le nombre de colonnes doit être supérieur à 10) et un analyseur (Analyseur 1 : contrôle de l’exhaustivité d’une colonne). Cette configuration générera trois statistiques : le nombre de lignes, le nombre de colonnes et le pourcentage de complétude d’une colonne. Trois DPU supplémentaires vous seront facturés pour le temps nécessaire à la détection des anomalies, avec un minimum d’une seconde. Voir l’exemple 4 pour plus de détails.

Réentraînement :
Vous voudrez peut-être exclure les exécutions de tâches ou les statistiques anormales afin que l’algorithme de détection des anomalies prédise avec précision les anomalies ultérieures. Pour ce faire, AWS Glue vous permet d’exclure ou d’inclure des statistiques. Vous devrez dépenser 1 DPU pour entraîner de nouveau le modèle pendant le temps nécessaire à l’entraînement. En moyenne, le réentraînement prend de 10 secondes à 20 minutes par statistique. Voir l’exemple 5 pour plus de détails.

Stockage des statistiques :
Le stockage des statistiques collectées est gratuit. Il y a une limite de 100 000 statistiques par compte et elles seront stockées pendant 2 ans.

Frais supplémentaires :
AWS Glue traite les données directement à partir d’Amazon Simple Storage Service (Amazon S3). Il n’y a pas de frais de stockage supplémentaires pour la lecture de vos données avec AWS Glue. Le stockage, les requêtes et le transfert de données sont facturés selon les tarifs Amazon S3 standard. En fonction de votre configuration, les fichiers temporaires, les résultats de la qualité des données et les fichiers de brassage sont stockés dans un compartiment S3 de votre choix et sont également facturés aux tarifs S3 standard.

Si vous utilisez le catalogue de données, le tarif standard du catalogue de données AWS Glue s'applique. Pour plus d’informations, cliquez sur l’onglet Stockage et requêtes du catalogue de données.

Exemples de tarification

Exemple 1 – Obtenir des recommandations pour une table dans le catalogue de données

Par exemple, considérons une tâche de recommandation avec 5 DPU qui se termine en 10 minutes. Vous paierez 5 DPUs * 1/6 heure * 0,44 USD, soit 0,37 USD.

Exemple 2 – Évaluer la qualité des données dans une table dans le Catalogue de données AWS Glue

Après avoir examiné les recommandations, vous pouvez les modifier si nécessaire, puis planifier la tâche de qualité des données en approvisionnant les DPU. Par exemple, considérons une tâche de l’évaluation de la qualité des données avec 5 DPU qui se termine en 20 minutes.
Vous paierez 5 DPU * 1/3 heure * 0,44 USD, soit 0,73 USD.

Exemple 3 – Évaluer la qualité des données dans une tâche AWS Glue ETL

Vous pouvez également ajouter ces contrôles de qualité des données à vos tâches ETL AWS Glue afin d'empêcher les mauvaises données d'entrer dans vos lacs de données. Vous pouvez le faire en ajoutant Data Quality Transform sur AWS Glue Studio ou en utilisant les API AWS Glue dans le code que vous rédigez dans les blocs-notes AWS Glue Studio. Prenons l'exemple d'une tâche AWS Glue qui s'exécute là où les règles de qualité des données sont configurées dans le pipeline, et qui s'exécute pendant 20 minutes (1/3 d'heure) avec 6 DPU. Vous serez facturé 6 DPU * 1/3 heure * 0,44 USD, soit 0,88 USD. Vous pouvez également utiliser le Flex, pour lequel vous serez facturé 6 DPU * 1/3 heure * 0,29 USD, soit 0,58 USD.

Exemple 4 – Évaluer la qualité des données dans une tâche AWS Glue ETL avec détection d’anomalies

Considérez une tâche AWS Glue qui lit des données à partir d’Amazon S3, transforme les données et exécute des contrôles de qualité des données avant de les charger sur Amazon Redshift. Supposons que ce pipeline comportait 10 règles et 10 analyseurs, ce qui a permis de recueillir 20 statistiques. Supposons également que l’extraction, le processus de transformation, le chargement, la collecte de statistiques et l’évaluation de la qualité des données prendront 20 minutes. Si la détection des anomalies n’est pas activée, le client sera facturé 6 DPU * 1/3 heure (20 minutes) * 0,44 USD, soit 0,88 USD (A). Lorsque la détection des anomalies est activée, nous ajouterons 1 DPU pour chaque statistique et la détection des anomalies prendra en moyenne 15 secondes. Dans cet exemple, le client devra payer 20 statistiques * 1 DPU * 15/3 600 (0,0041 heure/statistique) * 0,44 USD (coût par DPU/heure) = 0,037 USD (B). Le coût total de la tâche sera de 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.

Exemple 5 – Réentraînement

Supposons que votre tâche Glue a détecté une anomalie. Vous décidez d’exclure l’anomalie du modèle afin que l’algorithme de détection des anomalies puisse prédire les anomalies futures avec précision. Pour ce faire, vous pouvez entraîner de nouveau le modèle en excluant cette statistique anormale. Vous devrez payer 1 DPU par statistique pendant le temps nécessaire pour entraîner de nouveau le modèle. En moyenne, cela peut prendre 15 secondes. Dans cet exemple, en supposant que vous excluez 1 point de données, vous obtiendrez 1 statistique * 1 DPU * 15/3 600 (0,0041 heure/statistique) * 0,44 USD = 0,00185 USD.
Zéro ETL
Zéro ETL est un ensemble d’intégrations entièrement gérées par AWS qui réduit la nécessité de créer des pipelines d’extraction, de transformation et de chargement (ETL) de données pour les cas d’utilisation courants d’ingestion et de réplication dans le cadre de vos initiatives analytiques et d’IA. AWS ne facture aucuns frais supplémentaires pour l’intégration zéro ETL. Vous payez pour les sources et les ressources cibles utilisées pour créer et traiter les données de modification créées dans le cadre d’une intégration zéro ETL.

Amazon SageMaker Lakehouse et Amazon Redshift prennent en charge les intégrations zéro ETL à partir des applications

Amazon SageMaker Lakehouse et Amazon Redshift prennent en charge les intégrations zéro ETL à partir des applications, ce qui automatise l’extraction et le chargement des données des applications dans Amazon SageMaker Lakehouse et Amazon Redshift. Consultez la documentation zéro ETL d’ AWS Glue pour obtenir la liste complète des sources zéro ETL prises en charge.

AWS Glue facture des frais pour l’ingestion des données sources des applications prises en charge par une intégration zéro ETL. Vous payez pour les ressources AWS Glue utilisées pour collecter les insertions, les mises à jour et les suppressions depuis votre application. Vous êtes facturé en fonction du volume de données reçu de l’application, mais vous n’êtes pas facturé pour avoir initié la demande d’ingestion de données. Chaque demande d’ingestion effectuée par AWS Glue a un volume minimum de 1 mégaoctet (Mo).

Lorsque les données ingérées sont écrites sur Amazon Redshift, vous payez pour les ressources utilisées pour traiter les données de modification créées dans le cadre de l’intégration zéro ETL sur la base des taux de la tarification d’Amazon Redshift.

Lorsque les données ingérées sont écrites sur SageMaker Lakehouse, vous payez pour les ressources utilisées pour traiter les données de modification créées dans le cadre de l’intégration zéro ETL. La ressource de calcul utilisée est basée sur le type de stockage choisi pour SageMaker Lakehouse.
- Pour le stockage géré par Amazon Redshift, vous êtes facturé en fonction du calcul Amazon Redshift sans serveur. Pour plus d’informations, consultez la Tarification Amazon Redshift.
- Pour Amazon Simple Storage Service (S3), vos frais sont définis sur la base du calcul par unité de traitement des données (DPU par heure) effectué par AWS Glue et facturé par seconde avec un minimum d’une minute.
Intégration zéro ETL d’Amazon DynamoDB à Amazon SageMaker Lakehouse

L’intégration zéro ETL d’Amazon DynamoDB à Amazon SageMaker Lakehouse automatise l’extraction et le chargement des données, permettant l’analytique et l’IA pour les données des tables DynamoDB dans le lakehouse de données.

Cette fonctionnalité vous permet d’exporter des données depuis vos sauvegardes DynamoDB en continu (récupération à un instant donné). Pour en savoir plus, consultez Tarification d’Amazon DynamoDB.

Lorsque les données ingérées sont écrites dans Amazon SageMaker Lakehouse, vous payez pour les ressources utilisées pour traiter les données de modification créées dans le cadre de l’intégration zéro ETL en fonction du type de stockage choisi pour Amazon SageMaker Lakehouse.
- Pour le stockage géré par Amazon Redshift, vous êtes facturé en fonction du calcul Amazon Redshift sans serveur. Pour plus d’informations, consultez la Tarification Amazon Redshift.
- Pour Amazon Simple Storage Service (S3), vos frais sont définis sur la base du calcul par unité de traitement des données (DPU par heure) effectué par AWS Glue et facturé par seconde avec un minimum d’une minute.