Glue를 선택해야 하는 이유

AWS Glue에서는 크롤러(데이터 검색) 및 추출, 전환, 적재(ETL) 작업(데이터 처리 및 로딩)에 대해 초 단위로 청구되는 시간당 요금을 지불합니다. AWS Glue 데이터 카탈로그의 경우 메타데이터 저장 및 액세스에 대해 단순 월 요금을 지불하면 됩니다. 저장된 처음 1백만 개의 객체는 무료이며 처음 1백만 번의 액세스도 무료입니다. ETL 코드를 대화식으로 개발할 수 있도록 개발 엔드포인트를 프로비저닝한 경우, 초 단위로 청구되는 시간당 요금을 지불합니다. AWS Glue DataBrew의 경우 대화형 세션은 세션별 요금이 청구되고 DataBrew 작업은 분당 요금이 청구됩니다. AWS Glue Schema 레지스트리는 무료로 사용할 수 있습니다.

참고: 요금은 AWS 리전별로 다를 수 있습니다.

  • ETL 작업 및 대화형 세션
  • 요금 예제

    ETL 작업: 15분간 실행되고 DPU 6개를 사용하는 AWS Glue Apache Spark 작업이 있습니다. DPU 시간당 요금은 0.44 USD입니다. 작업이 15분 동안 실행되었고 6개 단위의 DPU를 사용했으므로 DPU 6개 * 0.25시간 * 0.44 USD 또는 0.66 USD가 청구됩니다.

    AWS Glue Studio Job Notebooks 및 대화형 세션: AWS Glue Studio에서 노트북을 사용하여 대화형으로 ETL 코드를 개발한다고 가정합니다. 대화형 세션에는 기본적으로 5개 단위의 DPU가 포함됩니다. DPU 시간당 요금은 0.44 USD입니다. 세션을 24분 동안 계속 실행하는 경우 DPU 5개 * 0.4시간 * 0.44 USD 또는 0.88 USD의 요금이 청구됩니다.

  • Data Catalog
  • AWS Glue Data Catalog는 Amazon S3, Amazon Redshift 및 타사 데이터 소스를 비롯한 다양한 데이터 소스의 모든 데이터 자산을 위한 중앙 집중식 기술 메타데이터 리포지토리입니다. 데이터, 분석 및 AI를 위해 Amazon SageMaker Lakehouse에서 Data Catalog에 액세스할 수 있습니다. Amazon Redshift, Amazon Athena, Amazon EMR에서 데이터를 카탈로그, 데이터베이스, 테이블로 구성하고 쿼리할 수 있는 통합 인터페이스를 제공합니다. Data Catalog의 AWS Lake Formation 기능을 사용하면 AWS에서 데이터 거버넌스를 중앙 집중화할 수 있습니다. 세분화된 데이터 권한과 친숙한 데이터베이스 스타일 기능을 사용하여 데이터 자산을 관리하세요.

    Data Catalog를 사용할 때는 테이블 메타데이터 저장 및 액세스와 테이블 통계 및 테이블 최적화를 계산하는 데이터 처리 작업 실행에 대한 요금이 청구됩니다.

    메타데이터 요금

    Data Catalog의 경우 최대 100만 개의 메타데이터 객체를 무료로 저장할 수 있습니다. 100만 개를 초과하여 메타데이터 객체를 저장하는 경우, 100만 개를 초과하는 객체 10만 개당 월별 1.00 USD가 청구됩니다. Data Catalog에 있는 메타데이터 객체는 테이블, 테이블 버전, 파티션, 파티션 인덱스, 통계, 데이터베이스 또는 카탈로그입니다.

    테이블 유지 관리 및 통계

    Data Catalog는 Amazon S3 객체 스토리지의 Apache Iceberg 테이블에 대한 관리형 압축을 제공하여 작은 객체를 더 큰 객체로 압축해서 Amazon Redshift, Athena, Amazon EMR, AWS Glue ETL 작업과 같은 AWS 분석 서비스의 읽기 성능을 향상시킵니다. 테이블 압축에 사용된 데이터 처리 단위(또는 DPU)의 개수에 따라 시간당 요금이 청구됩니다. 하나의 데이터 처리 단위(DPU)는 vCPU 4개와 메모리 16GB를 제공합니다. 초 단위로 청구되며 이때 요금은 올림 처리되고 실행당 최소 시간은 1분입니다.

    또한 Data Catalog는 AWS Glue 테이블에 대한 열 수준 테이블 통계를 지원합니다. 이러한 통계는 AthenaAmazon Redshift 데이터 레이크 쿼리의 비용 기반 최적화 프로그램(CBO)과 통합되어 쿼리 성능이 향상되고 잠재적으로 비용이 절감됩니다.

    최적화

    • Apache Iceberg 테이블 최적화의 경우 DPU 시간당 0.44 USD의 요금이 초 단위로 청구되며 최소 시간은 1분입니다.

    통계:

    • 통계 생성의 경우 DPU 시간당 0.44 USD의 요금이 초 단위로 청구되며 최소 시간은 1분입니다.

    추가 사용 및 비용

    스토리지

    Data Catalog를 사용하여 Amazon S3와 Amazon Redshift에서 테이블을 생성하고 관리할 수 있으며 테이블 스토리지에 대해 각각 표준 Amazon S3 또는 Amazon Redshift 요금이 청구됩니다. Data Catalog에는 추가 스토리지 요금이 없습니다.

        1. Amazon S3에 데이터를 저장할 때 스토리지, 요청 및 데이터 전송에 대한 표준 Amazon S3 요금이 청구됩니다. 자세한 내용은 Amazon S3 요금을 참조하세요.

        2. Amazon Redshift에 데이터를 저장하는 경우 스토리지에 대한 표준 Amazon Redshift 요금이 청구됩니다. 자세한 내용은 Amazon Redshift 요금을 참조하세요.

    컴퓨팅

    Amazon EMR, AWS Glue, Athena 또는 오픈 소스나 타사 Apache Iceberg 호환 엔진에서 Amazon Redshift 테이블에 액세스하는 경우 서비스 관리형 Amazon Redshift Serverless 작업 그룹이 컴퓨팅 리소스에 사용됩니다. Amazon Redshift Serverless 관리형 작업 그룹은 테이블 결과를 필터링하는 데 사용되며, 표준 Amazon Redshift Serverless 요금을 기준으로 사용한 컴퓨팅 리소스에 대한 요금이 청구됩니다. Amazon Redshift를 사용하여 Amazon Redshift에 저장된 테이블을 쿼리하는 데는 별도의 요금이 청구되지 않습니다. 자세한 내용은 Amazon Redshift 요금을 참조하세요.

    Lake Formation 권한

    Lake Formation은 Data Catalog와 통합되며 태그 기반 또는 이름 기반 액세스 제어와 교차 계정 공유를 사용하여 데이터베이스, 테이블, 열, 행 및 셀 수준의 권한을 제공합니다. Lake Formation 권한을 생성하거나, 통합된 AWS 서비스와 함께 Lake Formation 권한을 사용하는 데는 별도의 요금이 청구되지 않습니다.

    요금 예제

    AWS 프리 티어의 Data Catalog: 어떤 달에 Data Catalog에 100만 개의 메타데이터 객체를 저장하고 이러한 테이블에 액세스하도록 100만 번의 메타데이터 요청을 수행한다고 가정해 보겠습니다. 사용량이 AWS Glue Data Catalog 프리 티어 범위 내에 있으므로 0 USD를 지불하게 됩니다. 매월 무료로 처음 100만 개의 메타데이터 객체를 저장하고 100만 번의 메타데이터 요청을 수행할 수 있습니다.

    Data Catalog 표준 계층: 이제 메타데이터 스토리지 사용량은 월별 100만 개의 메타데이터 객체 그대로이지만, 요청이 두 배 증가하여 월별 메타데이터 요청이 2백만 건이라고 가정해 보겠습니다. 또한 크롤러를 사용하여 새로운 테이블을 찾고 크롤러가 30분 동안 실행되며 2개의 DPU를 사용한다고 가정해 보겠습니다.

    처음 100만 개의 메타데이터 객체에 대한 스토리지가 무료이므로 스토리지 비용은 여전히 0 USD입니다. 처음 100만 건의 요청도 무료입니다. Data Catalog 프리 티어를 초과하는 100만 건의 요청에 대해 1 USD의 요금이 청구됩니다.

    다른 서비스와 함께 Data Catalog 사용:

    예를 들어, SageMaker Lakehouse에서 Athena SQL을 사용하여 Amazon Redshift에서 테이블을 쿼리하는 경우 Amazon Redshift에 테이블 저장(표준 Amazon Redshift 요금 기준), Data Catalog에 대한 메타데이터 요청(표준 Data Catalog 요청 요금 기준), Data Catalog에 카탈로그, 데이터베이스 및 테이블 메타데이터를 저장하기 위한 메타데이터 스토리지, Amazon Redshift 테이블 결과를 필터링하기 위한 초당 Amazon Redshift Serverless RPU 시간(최소 60초 요금), Athena 쿼리에서 스캔한 바이트 수(가장 가까운 메가바이트로 반올림되며 표준 Athena 요금 기준 쿼리 데이터당 최소 10MB)에 대해 요금이 청구됩니다.

    Amazon EMR Serverless를 사용하여 Amazon Redshift에서 테이블을 쿼리하는 또 다른 시나리오에서는 Amazon Redshift에 테이블 저장(표준 Amazon Redshift 요금 기준), Data Catalog에 대한 메타데이터 요청(표준 Data Catalog 요청 요금 기준), Data Catalog에 카탈로그, 데이터베이스 및 테이블 메타데이터를 저장하기 위한 메타데이터 스토리지, Amazon Redshift 테이블 결과를 필터링하기 위한 초당 Amazon Redshift Serverless RPU 시간(최소 60초 요금), Amazon EMR 애플리케이션에서 작업자가 사용한 vCPU, 메모리, 스토리지 리소스 양에 대해 요금이 청구됩니다.

    Amazon Redshift Serverless를 사용하여 Amazon S3 객체 스토리지에서 Apache Iceberg 테이블을 쿼리하는 또 다른 시나리오에서는 Amazon S3에 Apache Iceberg 테이블 저장(표준 Amazon S3 요금 기준), Data Catalog에 대한 메타데이터 요청(표준 Data Catalog 요청 요금 기준), Data Catalog에 카탈로그, 데이터베이스, 테이블 메타데이터를 저장하기 위한 메타데이터 스토리지, 컴퓨팅 시간(RPU 시간, 표준 Amazon Redshift 요금 기준)에 대해 요금이 청구됩니다.

    AWS Glue 크롤러에는 DPU 시간당 0.44 USD가 청구됩니다. 따라서 DPU 시간당 0.44 USD를 기준으로 2 DPU * 0.5시간의 비용, 즉 0.44 USD가 청구됩니다.

    AWS Glue 테이블에 대한 통계를 생성하고 통계 실행에 10분이 걸리며 DPU 1개를 사용하는 경우 1 DPU * 0.1666시간 * 0.44 USD/DPU-시간에 해당하는 0.07 USD가 청구됩니다.

    Amazon S3 객체 스토리지에 저장된 Apache Iceberg 테이블을 압축하고 압축을 30분 동안 실행하며 DPU 2개를 사용하는 경우 DPU 2개 * 0.5시간 * 0.44 USD/DPU-시간에 해당하는 0.44 USD가 청구됩니다.

  • 크롤러
  • DataBrew 대화형 세션
  • 요금 예제

    AWS Glue DataBrew: 30분 대화형 세션당 요금은 1.00 USD입니다. 오전 9:00에 세션을 시작하고 즉시 콘솔에서 나간 후 오전 9:20~오전 9:30에 돌아올 경우 1개 세션이 활용되고 총 요금은 1 USD입니다.

    오전 9:00에 세션을 시작하고 오전 9:50까지 DataBrew 콘솔에서 상호 작용한 후 DataBrew 프로젝트 공간에서 나갔다가 오전 10:15에 돌아와서 마지막으로 상호 작용하는 경우 3개 세션이 활용되고 세션당 1 USD의 요금으로 총 3 USD가 청구됩니다.

  • DataBrew 작업
  • 요금 예제

    AWS Glue DataBrew: DataBrew 작업을 10분간 실행하고 5개의 DataBrew 노드를 소비하는 경우 요금은 0.40 USD입니다. 작업에 1/6시간이 걸렸고 5개의 노드를 사용했으므로 노드 시간당 0.48 USD로 노드 5개 * 1/6시간, 총 0.40 USD가 청구됩니다.

  • 데이터 품질
  • AWS Glue Data Quality은 높은 데이터 품질을 달성하도록 지원하여 데이터에 대한 신뢰를 구축합니다. 이 서비스는 데이터 레이크 및 파이프라인의 데이터 품질을 자동으로 측정하고 모니터링하며 관리함으로써 누락되거나, 오래되거나, 잘못된 데이터를 쉽게 식별할 수 있습니다.

    Data Catalog 및 AWS Glue Studio에서 또는 AWS Glue API를 통해 데이터 품질 기능에 액세스할 수 있습니다.

    Data Catalog에서 카탈로그에 저장된 데이터세트의 데이터 품질 관리 요금:

    Data Catalog에서 데이터세트를 선택하고 권장 사항을 생성할 수 있습니다. 이 작업은 데이터 처리 장치(DPU)를 프로비저닝할 권장 사항 작업을 생성합니다. 권장 사항을 받은 후 새 규칙을 수정하거나 추가하고 예약할 수 있습니다. 이러한 작업을 DPU를 프로비저닝할 데이터 품질 작업이라고 합니다. 최소 청구 기간은 1분으로 최소 2개의 DPU가 필요합니다.

    AWS Glue ETL에서 처리된 데이터세트의 데이터 품질 관리 요금:

    데이터 품질 검사를 ETL 작업에 추가하여 잘못된 데이터가 데이터 레이크에 들어가는 것을 방지할 수도 있습니다. 이러한 데이터 품질 규칙은 ETL 작업 내에 상주하므로 런타임이 증가하거나 DPU 소비가 증가합니다. 또는 SLA에 민감하지 않은 워크로드에 유연한 실행을 사용할 수 있습니다.

    AWS Glue ETL에서 이상 현상을 탐지하기 위한 요금:

    이상 탐지:
    이상 현상을 탐지하는 데 걸리는 시간 동안 ETL 작업 DPU 외에 통계당 1 DPU가 발생합니다. 평균적으로 1개 통계에서 이상 현상을 탐지하는 데 10~20초가 걸립니다. 2개의 규칙(규칙 1: 데이터 볼륨이 레코드 1000개 이상이어야 함, 규칙 2: 열 수가 10보다 커야 함)과 1개의 분석기(분석기 1: 열의 완전성 모니터링)를 구성했다고 가정해 보겠습니다. 이 구성은 행 수, 열 수 및 열의 완전성 백분율이라는 세 가지 통계를 생성합니다. 이상 현상을 탐지하는 데 걸리는 시간(최소 1초) 동안 DPU 3개가 추가로 청구됩니다. 자세한 내용은 예제 - 4를 참조하세요.

    재훈련:
    이상 탐지 알고리즘이 후속 이상 현상을 정확하게 예측하도록 이상 작업 실행 또는 통계를 제외해야 할 수 있습니다. 이를 위해 AWS Glue를 사용하면 통계를 제외 또는 포함할 수 있습니다. 모델을 재훈련하는 데 걸리는 시간 동안 모델 재훈련을 위한 1DPU가 발생합니다. 평균적으로 재훈련에는 통계당 10초~20분이 소요됩니다. 자세한 내용은 예제 5를 참조하세요.

    통계 저장:
    수집된 통계는 무료로 저장할 수 있습니다. 통계는 계정당 100,000개로 제한되며 2년 동안 저장됩니다.

    추가 요금:
    AWS Glue는 Amazon Simple Storage Service(Amazon S3)에서 직접 데이터를 처리합니다. AWS Glue로 데이터를 읽는 데 드는 스토리지 추가 비용은 없습니다. 스토리지, 요청 및 데이터 전송에 대한 표준 Amazon S3 요금이 부과됩니다. 구성에 따라 임시 파일, 데이터 품질 결과 및 셔플 파일은 선택한 S3 버킷에 저장되며 표준 S3 요율로 청구됩니다.


    데이터 카탈로그를 사용하면, 표준 데이터 카탈로그 요금이 부과됩니다. 자세한 내용은 Data Catalog 스토리지 및 요청 탭을 선택하세요.

    요금 예제

    예제 1 – 데이터 카탈로그의 테이블에 대한 권장 사항 가져오기

    예를 들어 10분 안에 완료되는 5개의 DPU가 있는 추천 작업을 생각해 보십시오. 5 DPU * 1/6시간 * 0.44 USD를 지불하게 되며 이는 0.37 USD과 같습니다.

    예제 2 – 데이터 카탈로그에서 테이블의 데이터 품질 평가

    권장 사항을 검토한 후 필요한 경우 편집한 다음 DPU를 프로비저닝하여 데이터 품질 작업을 예약할 수 있습니다. 예를 들어 20분 안에 완료되는 5개의 DPU가 있는 데이터 품질 평가 작업을 생각해 보십시오.
    5 DPU * 1/3시간 * 0.44 USD를 지불하게 되며 이는 0.73 USD과 같습니다.

    예제 3 – AWS Glue ETL 작업에서 데이터 품질 평가

    이러한 데이터 품질 검사를 AWS Glue ETL 작업에 추가하여 잘못된 데이터가 데이터 레이크에 들어가는 것을 방지할 수도 있습니다. AWS Glue Studio에서 Data Quality Transform을 추가하거나 AWS Glue Studio 노트북에서 작성한 코드 내에서 AWS Glue API를 사용하여 이를 수행할 수 있습니다. 6개의 DPU로 20분(1/3시간) 동안 실행되는 파이프라인 내에서 데이터 품질 규칙이 구성된 곳에서 실행되는 AWS Glue 작업을 생각해 보십시오. 6 DPU * 1/3시간 *0.44 USD가 청구되며 이는 0.88 USD와 같습니다 또는 Flex를 사용할 수 있으며 이에 대해 6 DPU * 1/3시간 * 0.29 USD(0.58 USD)가 청구됩니다.

    예제 4 - 이상 탐지를 사용하여 AWS Glue ETL 작업에서 데이터 품질 평가

    Amazon S3에서 데이터를 읽고, 데이터를 변환하고, Amazon Redshift로 로드하기 전에 데이터 품질 검사를 실행하는 AWS Glue 작업을 생각해 보십시오. 이 파이프라인에 10개의 규칙과 10개의 분석기가 있어 20개의 통계가 수집되었다고 가정하겠습니다. 또한 추출, 변환 프로세스, 로드, 통계 수집, 데이터 품질 평가에 20분이 걸린다고 가정하겠습니다. 이상 탐지를 활성화하지 않으면 고객에게 6 DPU * 1/3시간(20분) * 0.44 USD = 0.88 USD(A)의 요금이 부과됩니다. 이상 탐지를 활성화하면 모든 통계에 대해 1개의 DPU가 추가되고, 이상 현상을 탐지하는 데 평균 15초가 걸립니다. 이 예제에서는 고객에게 20개 통계 * 1 DPU * 15/3600(통계당 0.0041시간) * 0.44 USD(DPU당 1시간 비용) = 0.037 USD(B)가 발생합니다. 총 작업 비용은 0.88 USD(A) + 0.037 USD(B) = 0.917 USD입니다.

    예제 5 - 재훈련

    Glue 작업에서 이상 현상이 감지되었다고 생각해 보겠습니다. 이상 탐지 알고리즘이 미래의 이상 현상을 정확하게 예측할 수 있도록 모델에서 이상 현상을 제외하기로 결정합니다. 이렇게 하려면 이 이상 통계를 제외하여 모델을 다시 훈련할 수 있습니다. 모델을 재훈련하는 데 걸리는 시간 동안 통계당 1 DPU가 발생합니다. 평균적으로 15초가 걸릴 수 있습니다. 이 예제에서는 데이터 포인트 1개를 제외한다고 가정하면 1개 통계 * 1 DPU * 15/3600(통계당 0.0041시간) * 0.44 USD = 0.00185 USD가 발생합니다.

  • 제로 ETL
  • 제로 ETL은 분석 및 AI 이니셔티브의 일반적인 수집 및 복제 사용 사례를 위한 추출, 전환, 적재(ETL) 데이터 파이프라인을 구축할 필요성을 최소화하는 AWS의 완전관리형 통합 세트입니다. AWS에서는 제로 ETL 통합에 대한 추가 요금을 청구하지 않습니다. 제로 ETL 통합을 생성하고 제로 ETL 통합의 일부로 생성되는 변경 데이터를 처리하는 데 사용한 소스 및 대상 리소스에 대해서는 요금이 청구됩니다.

    Amazon SageMaker Lakehouse 및 Amazon Redshift의 애플리케이션 제로 ETL 통합 지원

    Amazon SageMaker Lakehouse와 Amazon Redshift는 애플리케이션의 제로 ETL 통합을 지원합니다. 이러한 통합은 애플리케이션에서 데이터를 추출하여 Amazon SageMaker Lakehouse와 Amazon Redshift로 로드하는 작업을 자동화합니다. 지원되는 제로 ETL 소스의 전체 목록은 AWS Glue 제로 ETL 설명서를 참조하세요.

    AWS Glue는 제로 ETL 통합에서 지원하는 애플리케이션 소스 데이터의 통합에 대해 요금을 청구합니다. 애플리케이션에서 삽입, 업데이트 및 삭제를 가져오는 데 사용되는 AWS Glue 리소스에 대한 요금을 지불합니다. 애플리케이션에서 수신한 데이터의 양을 기준으로 요금이 청구되며, 데이터 수집 요청 시작에 대해서는 요금이 청구되지 않습니다. AWS Glue의 각 수집 요청의 최소 볼륨은 1MB(메가바이트)입니다.

    수집된 데이터가 Amazon Redshift에 작성되면 제로 ETL 통합의 일부로 생성된 변경된 데이터를 처리하는 데 사용된 리소스에 대한 요금(Amazon Redshift 요금 기준)을 지불합니다.

    수집된 데이터가 SageMaker Lakehouse에 작성되면 제로 ETL 통합의 일부로 생성된 변경된 데이터를 처리하는 데 사용된 리소스에 대한 요금을 지불합니다. 사용되는 컴퓨팅 리소스는 SageMaker Lakehouse에 대해 선택한 스토리지 유형을 기준으로 합니다.

    • Amazon Redshift 관리형 스토리지의 경우 Amazon Redshift Serverless 컴퓨팅을 기준으로 요금이 청구됩니다. 자세한 내용은 Amazon Redshift 요금을 참조하세요.
    • Amazon Simple Storage Service(S3)의 경우 AWS Glue 컴퓨팅을 기준으로 데이터 처리 단위 시간(DPU 시간)당 요금이 초 단위로 청구되며 최소 1분입니다.

     

    Amazon SageMaker Lakehouse와 Amazon DynamoDB의 제로 ETL 통합

    Amazon DynamoDB와 Amazon SageMaker Lakehouse의 제로 ETL 통합은 데이터 추출 및 로드를 자동화하여 데이터 레이크하우스의 DynamoDB 테이블에서 데이터에 대한 분석 및 AI를 가능하게 합니다.

    DynamoDB 연속 백업(특정 시점 복구)에서 데이터를 내보내는 데는 요금이 청구됩니다. 자세한 내용은 Amazon DynamoDB 요금을 참조하세요.

    수집된 데이터가 SageMaker Lakehouse에 작성되면 제로 ETL 통합의 일부로 생성된 변경된 데이터를 처리하는 데 사용된 리소스에 대한 요금(Amazon SageMaker Lakehouse에 대해 선택한 스토리지 유형 기준)을 지불합니다.

    • Amazon Redshift 관리형 스토리지의 경우 Amazon Redshift Serverless 컴퓨팅을 기준으로 요금이 청구됩니다. 자세한 내용은 Amazon Redshift 요금을 참조하세요.
    • Amazon Simple Storage Service(S3)의 경우 AWS Glue 컴퓨팅을 기준으로 데이터 처리 단위 시간(DPU 시간)당 요금이 초 단위로 청구되며 최소 1분입니다.

참고: 요금은 리전별로 다를 수 있습니다.

AWS Glue의 제공 여부에 대해 자세히 알아보려면 글로벌 리전 표를 확인하십시오.