Por que usar o Glue?

Com o AWS Glue, você paga uma taxa por hora, cobrada por segundo, por crawlers (descoberta de dados) e trabalhos de extração, transformação e carregamento (ETL) (processamento e carregamento de dados). Para o Catálogo de Dados do AWS Glue, você paga uma taxa mensal simplificada para armazenar e acessar os metadados. O primeiro milhão de objetos armazenados e o primeiro milhão de acessos são gratuitos. Se você provisionar um endpoint de desenvolvimento para desenvolver interativamente o código de ETL, pagará uma taxa horária, cobrada por segundo. Para o AWS Glue DataBrew, as sessões interativas são cobradas por sessão e os trabalhos do DataBrew são cobradas por minuto. O uso do registro de esquema do AWS Glue é oferecido sem custo adicional.

Observação: os preços podem variar por região da AWS.

  • Trabalhos de ETL e sessões interativas
  • Exemplos de preços

    Trabalho de ETL: considere um trabalho do Apache Spark do AWS Glue executado por 15 minutos usando 6 DPUs. O preço de 1 DPU/hora é USD 0,44. Como seu trabalho durou 15 minutos e usou 6 DPUs, a AWS cobrará 6 DPUs *0,25 hora * USD 0,44, ou USD 0,66.

    AWS Glue Studio Job Notebooks e sessões interativas: suponha que você use um caderno no AWS Glue Studio para desenvolver seu código ETL de forma interativa. Uma sessão interativa tem 5 DPUs por padrão. O preço de 1 DPU/hora é USD 0,44. Se você mantiver a sessão em execução por 24 minutos, haverá uma cobrança de 5 DPUs * 0,4 hora* USD 0,44 ou USD 0,88.

  • Catálogo de Dados
  • O Catálogo de Dados do AWS Glue é o repositório de metadados técnicos centralizado para todos os ativos de dados em várias fontes de dados, incluindo o Amazon S3, o Amazon Redshift e fontes de dados de terceiros. O Catálogo de Dados pode ser acessado no Amazon SageMaker Lakehouse para dados, analytics e IA. Ele fornece uma interface unificada para organizar dados como catálogos, bancos de dados e tabelas e consultá-los no Amazon Redshift, Amazon Athena e Amazon EMR. Os recursos do AWS Lake Formation no Catálogo de Dados permitem que você centralize a governança de dados na AWS. Administre os ativos de dados usando permissões de dados refinadas e recursos familiares de estilo de banco de dados.

    Ao usar o Catálogo de Dados, haverá uma cobrança pelo armazenamento e acesso aos metadados da tabela e pela execução de trabalhos de processamento de dados que computam estatísticas e otimizações de tabelas.

    Preços de metadados

    Com o Catálogo de Dados, você pode armazenar gratuitamente até um milhão de objetos de metadados. Se você armazenar mais de um milhão de objetos de metadados por mês, haverá uma cobrança de USD 1,00 por 100 mil objetos acima de um milhão. Um objeto de metadados no Catálogo de Dados é uma tabela, versão de tabela, partição, índices de partição, estatísticas, banco de dados ou catálogo.

    Manutenção e estatísticas de tabelas

    O Catálogo de Dados fornece compactação gerenciada para tabelas do Apache Iceberg no armazenamento de objetos do Amazon S3, compactando objetos pequenos em objetos maiores para melhorar a performance de leitura pelos serviços de analytics da AWS, como o Amazon Redshift, Athena, Amazon EMR e trabalhos de ETL do AWS Glue. Haverá uma cobrança de uma taxa por hora com base no número de unidades de processamento de dados (ou DPUs) usadas para uma tabela de compactação. Uma única unidade de processamento de dados (DPU) oferece 4 vCPUs e 16 GB de memória. A cobrança é feita em incrementos de um segundo, arredondados para o segundo mais próximo, com uma duração mínima de um minuto por execução.

    O Catálogo de Dados também é compatível com estatísticas de tabelas em nível de coluna para tabelas do AWS Glue. Essas estatísticas são integradas ao otimizador baseado em custos (CBO) no Athena e em consultas ao data lake do Amazon Redshift, resultando em melhor performance de consulta e possível economia de custos.

    Otimização

    • USD 0,44 por DPU/hora para otimizar as tabelas do Apache Iceberg, cobradas por segundo com um mínimo de um minuto.

    Estatísticas:

    • USD 0,44 por DPU/hora de geração de estatísticas, cobradas por segundo com um mínimo de um minuto.

    Uso e custos adicionais

    Armazenamento

    Usando o Catálogo de Dados, você pode criar e gerenciar tabelas no Amazon S3 e no Amazon Redshift, e serão cobradas as taxas padrão do Amazon S3 ou do Amazon Redshift, respectivamente, pelo armazenamento de tabelas. Não há cobranças adicionais de armazenamento no Catálogo de Dados.

        1. Ao armazenar dados no Amazon S3, são cobradas taxas padrão do Amazon S3 para armazenamento, solicitações e transferência de dados. Consulte Definição de preço do Amazon S3 para obter mais informações.

        2. Ao armazenar dados no Amazon Redshift, serão cobradas taxas padrão do Amazon Redshift pelo armazenamento. Para obter detalhes, acesse Preço do Amazon Redshift.

    Computação

    Quando você acessa tabelas do Amazon Redshift no Amazon EMR, AWS Glue, Athena ou em qualquer mecanismo de código aberto ou de terceiros compatível com o Apache Iceberg, um grupo de trabalho do Amazon Redshift sem servidor gerenciado pelo serviço é usado para recursos de computação. O grupo de trabalho gerenciado pelo Amazon Redshift sem servidor é usado para filtrar os resultados da tabela, e haverá uma cobrança pelos recursos de computação que você usa com base nas tarifas padrão do Amazon Redshift sem servidor. Não há cobranças separadas para consultar tabelas armazenadas no Amazon Redshift usando o Amazon Redshift. Acesse Preço do Amazon Redshift para saber mais.

    Permissões do Lake Formation

    O Lake Formation se integra ao Catálogo de Dados e fornece permissões no nível de banco de dados, tabela, coluna, linha e célula usando controles de acesso baseados em tags ou nomes e compartilhamento entre contas. Não há cobranças separadas ao criar permissões do Lake Formation ou ao usar permissões do Lake Formation com serviços integrados da AWS.

    Exemplos de preços

    Catálogo de Dados no nível gratuito da AWS: vamos supor que você armazene um milhão de objetos de metadados no Catálogo de Dados em um determinado mês e realize um milhão de solicitações de metadados para acessar essas tabelas. Você paga USD 0 porque o uso está dentro do nível gratuito do Catálogo de Dados do AWS Glue. Você pode armazenar o primeiro milhão de objetos e realizar um milhão de solicitações por mês gratuitamente.

    Nível padrão do Catálogo de Dados: agora, suponha que o uso do armazenamento de metadados permaneça o mesmo em um milhão de objetos de metadados por mês, mas suas solicitações dobrem para dois milhões de solicitações de metadados por mês. Digamos que você também use crawlers para encontrar novas tabelas, e eles sejam executados por 30 minutos e consumam 2 DPUs.

    O custo do armazenamento ainda será USD 0, pois o armazenamento do primeiro milhão de objetos de metadados é gratuito. O primeiro milhão de solicitações também é gratuito. Haverá uma cobrança de um milhão de solicitações acima do nível gratuito do Data Catalog, que corresponde a USD 1.

    Como usar o Catálogo de Dados com outros serviços:

    Por exemplo, quando você consultar tabelas no Amazon Redshift usando o Athena SQL no SageMaker Lakehouse, haverá uma cobrança de: armazenamento de tabelas no Amazon Redshift com base no preço padrão do Amazon Redshift; solicitação de metadados realizada ao Catálogo de Dados com base no preço padrão de solicitação do Catálogo de Dados; armazenamento de metadados para armazenar metadados de catálogo, banco de dados e tabela no Catálogo de Dados; RPU/horas do Amazon Redshift sem servidor por segundo (com uma cobrança mínima de 60 segundos) para filtrar os resultados da tabela do Amazon Redshift; e número de bytes verificados pela consulta do Athena, arredondado para o megabyte mais próximo, com um mínimo de 10 MB por dados de consulta usando o preço padrão do Athena.

    Em outro cenário no qual você consulta tabelas no Amazon Redshift usando o Amazon EMR Sem Servidor, haverá uma cobrança de: armazenamento de tabelas no Amazon Redshift com base no preço padrão do Amazon Redshift; solicitação de metadados realizada ao Catálogo de Dados com base no preço padrão da solicitação do Catálogo de Dados; armazenamento de metadados para armazenar metadados de catálogo, banco de dados e tabela no Catálogo de Dados; RPU/horas do Amazon Redshift sem servidor por segundo (com uma cobrança mínima de 60 segundos) para filtrar os resultados da tabela do Amazon Redshift; e quantidade de vCPU, memória e recursos de armazenamento consumidos pelos operadores em uma aplicação do Amazon EMR.

    Em outro cenário em que você consulta tabelas do Apache Iceberg no armazenamento de objetos do Amazon S3 usando o Amazon Redshift sem servidor, haverá uma cobrança de: armazenamento de tabelas do Apache Iceberg no Amazon S3 com base no preço padrão do Amazon S3; solicitação de metadados realizada ao Catálogo de Dados com base no preço padrão de solicitação do Catálogo de Dados; armazenamento de metadados para armazenar metadados de catálogos, bancos de dados e tabelas no Catálogo de Dados; e computação/horas (horas de RPU) com base nos preços padrão do Amazon Redshift.

    Os crawlers do AWS Glue são cobrados a USD 0,44 por DPU/hora, então você pagará 2 DPUs * 0,5 hora a USD 0,44 por DPU/hora, o que equivale a USD 0,44.

    Se você gerar estatísticas para uma tabela do AWS Glue, e a execução delas levar dez minutos e consumir 1 DPU, haverá uma cobrança de 1 DPU * 0,1666 hora * USD 0,44/DPU/hora, o que equivale a USD 0,07.

    Se você compactar tabelas do Apache Iceberg armazenadas no armazenamento de objetos do Amazon S3, e a compactação for executada por 30 minutos e consumir 2 DPUs, serão cobrados 2 DPUs * 0,5 hora* USD 0,44/DPU/hora, o que equivale a USD 0,44.

  • Crawlers
  • Sessões interativas do DataBrew
  • Exemplos de definição de preço

    AWS Glue DataBrew: o preço para cada 30 minutos de sessão interativa é USD 1,00. Se você iniciar uma sessão às 9h, sair imediatamente do console e retornar entre 9h20 e 9h30, terá utilizado uma sessão por um total de USD 1,00.

    Se você iniciar uma sessão às 9h e interagir com o console do DataBrew até 9h50, sair do espaço do projeto do DataBrew e voltar para fazer sua interação final às 10h15, terá utilizado três sessões e pagará USD 1,00 por sessão, totalizando USD 3,00.

  • Trabalhos do DataBrew
  • Exemplos de preço

    AWS Glue DataBrew: se um trabalho do DataBrew for executado por dez minutos e consumir cinco nós do DataBrew, o preço será USD 0,40. Uma vez que o trabalho foi executado por 1/6 de hora e consumiu cinco nós, a cobrança será 5 nós * 1/6 de hora a USD 0,48 por hora de nó, totalizando USD 0,40.

  • Qualidade dos dados
  • O AWS Glue Data Quality aumenta a confiança em seus dados, ajudando você a obter dados de alta qualidade. Ele mede, monitora e gerencia automaticamente a qualidade dos dados nos seus data lakes e pipelines, facilitando a identificação de dados ausentes, obsoletos ou inválidos.

    Você pode acessar os recursos de qualidade de dados no Catálogo de Dados e no AWS Glue Studio e por meio das APIs do AWS Glue.

    Preços para gerenciar a qualidade dos dados dos conjuntos de dados catalogados no Catálogo de Dados:

    Você pode escolher um conjunto de dados do Catálogo de Dados e gerar recomendações. Essa ação criará uma tarefa de recomendação para a qual você fornecerá unidades de processamento de dados (DPUs). Depois de obter as recomendações, você pode modificar ou adicionar novas regras e agendá-las. Essas tarefas são chamadas de tarefas de qualidade de dados para as quais você provisionará DPUs. Você precisará de no mínimo 2 DPUs com uma duração mínima de cobrança de um minuto.

    Preços para gerenciar a qualidade dos dados dos conjuntos de dados processados no ETL do AWS Glue:

    Você também pode adicionar verificações de qualidade de dados aos seus trabalhos de ETL para evitar que dados incorretos entrem em seus data lakes. Essas regras de qualidade de dados residirão nos seus trabalhos de ETL, resultando em um runtime maior ou em um maior consumo de DPU. Como alternativa, você pode usar a execução flexível para workloads não sensíveis ao SLA.

    Preços para detectar anomalias no ETL do AWS Glue:

    Detecção de anomalias:
    Você incorrerá em 1 DPU por estatística, além das DPUs de seu trabalho de ETL pelo tempo necessário para detectar anomalias. Em média, são necessários entre 10 e 20 segundos para detectar uma anomalia em uma estatística. Vamos supor que você tenha configurado duas regras (Regra 1: o volume de dados deve ser maior que 1.000 registros; Regra 2: a contagem de colunas deve ser maior que 10) e um analisador (Analisador 1: monitorar a integridade de uma coluna). Essa configuração gerará três estatísticas: contagem de linhas, contagem de colunas e porcentagem de completude de uma coluna. Serão cobradas 3 DPUs adicionais pelo tempo necessário para detectar anomalias com um mínimo de um segundo. Veja o exemplo 4 para obter mais detalhes.

    Reciclagem:
    Talvez você queira excluir execuções de trabalhos ou estatísticas anômalas para que o algoritmo de detecção de anomalias preveja com precisão as anomalias subsequentes. Para fazer isso, o AWS Glue permite que você exclua ou inclua estatísticas. Você incorrerá em 1 DPU para treinar novamente o modelo pelo tempo que for necessário. Em média, o novo treinamento leva de 10 segundos a 20 minutos por estatística. Veja o exemplo 5 para obter mais detalhes.

    Armazenamento de estatísticas:
    Não há cobrança para armazenar as estatísticas coletadas. Há um limite de 100 mil estatísticas por conta, e elas serão armazenadas por dois anos.

    Cobranças adicionais:
    O AWS Glue processa dados diretamente no Amazon Simple Storage Service (Amazon S3). Não há cobranças adicionais de armazenamento pela leitura dos seus dados com o AWS Glue. As cobranças serão feitas de acordo com as taxas padrão do Amazon S3 para armazenamento, solicitações e transferência de dados. Com base na sua configuração, os arquivos temporários, os resultados de qualidade de dados e os arquivos aleatórios são armazenados em um bucket do S3 de sua escolha e também são cobrados de acordo com as taxas padrão do S3.


    Se você usar o Catálogo de Dados, haverá uma cobrança das taxas padrão dele. Para saber mais, escolha a guia de armazenamento e solicitações do Catálogo de Dados.

    Exemplos de preço

    Exemplo 1: obter recomendações para uma tabela no Catálogo de Dados

    Por exemplo, considere uma tarefa de recomendação com 5 DPUs concluída em dez minutos. Você pagará 5 DPUs * 1/6 hora * USD 0,44, o que equivale a USD 0,37.

    Exemplo 2: avaliar a qualidade dos dados de uma tabela no catálogo de dados

    Depois de revisar as recomendações, você pode editá-las, se necessário, e agendar a tarefa de qualidade de dados provisionando DPUs. Por exemplo, considere uma tarefa de avaliação de qualidade com 5 DPUs concluída em 20 minutos.
    Você pagará 5 DPUs * 1/3 hora * USD 0,44, o que equivale a USD 0,73.

    Exemplo 3: avaliar a qualidade dos dados em um trabalho ETL do AWS Glue

    Você também pode adicionar essas verificações de qualidade de dados aos seus trabalhos de ETL do AWS Glue para evitar que dados incorretos entrem em seus data lakes. Você pode fazer isso adicionando o Data Quality Transform no AWS Glue Studio ou usando as APIs do AWS Glue no código que você cria nos blocos de anotações do AWS Glue Studio. Considere um trabalho do AWS Glue que é executado em que as regras de qualidade de dados são configuradas no pipeline, que executa 20 minutos (1/3 hora) com 6 DPUs. Você pagará 6 DPUs * 1/3 hora * USD 0,44, o que equivale a USD 0,88. Como alternativa, você pode usar o Flex, para o qual você pagará 6 DPUs * 1/3 de hora * USD 0,29, o que equivale a USD 0,58.

    Exemplo 4: avalie a qualidade dos dados em um trabalho de ETL do AWS Glue com detecção de anomalias

    Considere um trabalho do AWS Glue que leia dados do Amazon S3, transforme dados e execute verificações de qualidade de dados antes de carregá-los no Amazon Redshift. Suponha que esse pipeline tenha dez regras e dez analisadores, resultando em 20 estatísticas coletadas. Além disso, suponha que a extração, o processo de transformação, o carregamento, a coleta de estatísticas e a avaliação da qualidade dos dados levem 20 minutos. Sem a Detecção de anomalias ativada, o cliente pagará 6 DPUs * 1/3 de hora (20 minutos) * USD 0,44, o que equivale a USD 0,88 (A). Com a Detecção de anomalias ativada, adicionaremos 1 DPU para cada estatística, e levaremos 15 segundos, em média, para detectar anomalias. Neste exemplo, o cliente incorrerá em 20 estatísticas * 1 DPU * 15/3600 (0,0041 hora/estatística) * USD 0,44 (custo por DPU/hora) = USD 0,037 (B). O custo total do trabalho será de USD 0,88 (A) + USD 0,037 (B) = USD 0,917.

    Exemplo 5: novo treinamento

    Suponha que seu trabalho do Glue detectou uma anomalia. Você decide excluir a anomalia do modelo para que o algoritmo de detecção de anomalias preveja anomalias futuras com precisão. Para realizar essa ação, você pode treinar novamente o modelo excluindo essa estatística anômala. Você incorrerá em 1 DPU por estatística pelo tempo necessário para treinar novamente o modelo. Em média, isso pode levar 15 segundos. Neste exemplo, supondo que você esteja excluindo um ponto de dados, você incorrerá em 1 estatística * 1 DPU * 15/3.600 (0,0041 hora/estatística) * USD 0,44 = USD 0,00185.

  • ETL zero
  • ETL zero é um conjunto de integrações totalmente gerenciadas pela AWS que minimiza a necessidade de criar pipelines de dados de extração, transformação e carregamento (ETL) para casos de uso comuns de ingestão e replicação nas iniciativas de analytics e IA. A AWS não cobra uma taxa adicional pela Integração ETL zero. Você paga pelos recursos de origem e de destino usados para criar e processar os dados alterados criados como parte de uma Integração ETL zero.

    Compatibilidade do Amazon SageMaker Lakehouse e do Amazon Redshift com Integrações ETL zero em aplicações

    O Amazon SageMaker Lakehouse e o Amazon Redshift são compatíveis com Integrações ETL zero de aplicações, que automatizam a extração e o carregamento de dados de aplicações no Amazon SageMaker Lakehouse e no Amazon Redshift. Consulte a documentação de ETL zero do AWS Glue para ver a lista completa de fontes de ETL zero compatíveis.

    O AWS Glue cobra uma taxa de ingestão de dados de origem de aplicações compatíveis pela Integração ETL zero. Você paga pelos recursos do AWS Glue usados para buscar inserções, atualizações e exclusões da aplicação. Haverá uma cobrança com base no volume de dados recebidos da aplicação, e não haverá uma cobrança por iniciar a solicitação de ingestão de dados. Cada solicitação de ingestão feita pelo AWS Glue tem um volume mínimo de 1 megabyte (MB).

    Quando os dados ingeridos são gravados no Amazon Redshift, você paga pelos recursos usados para processar os dados alterados criados como parte da Integração ETL zero com base nas taxas de preços do Amazon Redshift.

    Quando os dados ingeridos são gravados no SageMaker Lakehouse, você paga pelos recursos usados para processar os dados alterados criados como parte da Integração ETL zero. O recurso computacional usado é baseado no tipo de armazenamento escolhido para o SageMaker Lakehouse.

    • Para o armazenamento gerenciado do Amazon Redshift, haverá uma cobrança com base na computação do Amazon Redshift sem servidor. Para obter mais informações, consulte Preço do Amazon Redshift.
    • Para o Amazon Simple Storage Service (S3), haverá uma cobrança com base na computação do AWS Glue por hora de unidade de processamento de dados (hora de DPU), cobrada por segundo com um mínimo de um minuto.

     

    Integração ETL zero do Amazon DynamoDB com o Amazon SageMaker Lakehouse

    A Integração ETL zero do Amazon DynamoDB com o Amazon SageMaker Lakehouse automatiza a extração e o carregamento de dados, permitindo o analytics e a IA de dados em tabelas do DynamoDB no data lakehouse.

    O DynamoDB cobra uma taxa para exportar dados dos backups contínuos do DynamoDB (recuperação para um ponto no tempo). Para obter informações, consulte a Preço do Amazon DynamoDB.

    Quando os dados ingeridos são gravados no Amazon SageMaker Lakehouse, você paga pelos recursos usados para processar os dados alterados criados como parte da Integração ETL zero com base no tipo de armazenamento escolhido para o Amazon SageMaker Lakehouse.

    • Para o armazenamento gerenciado do Amazon Redshift, haverá uma cobrança com base na computação do Amazon Redshift sem servidor. Para obter mais informações, consulte Preço do Amazon Redshift.
    • Para o Amazon Simple Storage Service (S3), haverá uma cobrança com base na computação do AWS Glue por hora de unidade de processamento de dados (hora de DPU), cobrada por segundo com um mínimo de um minuto.

Observação: os preços podem variar por região.

Veja a tabela de regiões globais para saber mais sobre a disponibilidade do AWS Glue.