Amazon Web Services 한국 블로그

Amazon S3 Tables와 Amazon SageMaker Lakehouse 통합 정식 출시

지난 AWS re:Invent 2024에서 Amazon S3 Tables를 출시했습니다. Amazon S3 테이블은 대규모 테이블 형식 데이터 저장을 간소화하는 내장 Apache Iceberg를 지원하며, 통합된 개방형 보안 데이터 레이크하우스로 분석 및 AI를 간소화하는 Amazon SageMaker Lakehouse를 출시했습니다. 또한 Amazon Athena, Amazon Data Firehose, Amazon EMR, AWS Glue, Amazon Redshift, and Amazon QuickSight를 사용하여 S3 테이블 데이터를 스트리밍, 쿼리 및 시각화할 수 있도록 Amazon Web Services (AWS) 분석 서비스와 S3 테이블의 통합을 미리 보기로 출시하였습니다.

AWS 고객은 Apache Iceberg 스토리지의 관리 및 최적화를 단순화하기를 원했고, 그 결과 S3 테이블을 개발하였습니다. 또한, SageMaker Lakehouse를 사용하여 분석 협업과 인사이트 생성을 방해하는 데이터 사일로를 허물기 위해 동시에 작업하고 있었습니다. AWS 분석 서비스와의 내장형 통합 외에도 S3 테이블 및 SageMaker Lakehouse와 함께 사용하면 분석 및 기계 학습(ML) 워크플로를 모두 지원하는 여러 데이터 소스에 대한 액세스를 통합하는 포괄적인 플랫폼을 확보할 수 있습니다.

오늘 다양한 분석 엔진 및 도구에서 통합된 S3 테이블 데이터 액세스를 제공하기 위해 Amazon SageMaker Lakehouse와 Amazon S3 Tables를 통합하여 정식 출시합니다. AWS 분석 및 AI/ML 서비스의 기능과 도구를 통합하는 단일 데이터 및 AI 개발 환경인 Amazon SageMaker Unified Studio에서 SageMaker Lakehouse에 액세스할 수 있습니다. SageMaker Lakehouse와 통합된 모든 S3 테이블 데이터는 SageMaker Unified Studio와 Amazon Athena, Amazon EMR, Amazon Redshift, Apache Spark 또는 PyIceberg와 같은 Apache Iceberg 호환 엔진에서 쿼리할 수 있습니다.

이 통합을 통해 S3 테이블에 읽고 쓰고 Amazon Redshift 데이터 웨어하우스와 Amazon DynamoDB 또는 PostgreSQL과 같은 타사 및 연동 데이터 소스에 있는 데이터와 조인할 수 있는 안전한 분석 워크플로를 간편하게 구축할 수 있습니다.

또한 SageMaker Lakehouse의 다른 데이터와 함께 S3 테이블의 데이터에 대한 세분화된 액세스 권한을 중앙에서 설정 및 관리하고 모든 분석 및 쿼리 엔진에 일관되게 적용할 수 있습니다.

SageMaker Lakehouse와 S3 테이블 통합 실제 사례
시작하려면 Amazon S3 콘솔로 이동하여 탐색 창에서 테이블 버킷을 선택하고 통합 활성화를 선택하여 AWS 분석 서비스의 테이블 버킷에 액세스합니다.

이제 테이블 버킷을 만들어 SageMaker Lakehouse와 통합할 수 있습니다. 자세히 알아보려면 AWS 설명서의 S3 테이블 시작하기를 참조하십시오.

1. Amazon S3 콘솔에서 Amazon Athena를 사용하여 테이블을 생성합니다.
Amazon Athena를 사용하여 몇 단계만 거치면 테이블을 생성하고 데이터로 채우고 Amazon S3 콘솔에서 직접 쿼리할 수 있습니다. 테이블 버킷을 선택하고 Athena로 테이블 만들기를 선택하거나, 기존 테이블을 선택하고 Athena로 테이블 쿼리를 선택할 수 있습니다.

2. Athena로 테이블 만들기

Athena로 테이블을 생성하려면 먼저 테이블의 네임스페이스를 지정해야 합니다. S3 테이블 버킷의 네임스페이스는 AWS Glue의 데이터베이스와 동일하며, Athena 쿼리에서 테이블 네임스페이스를 데이터베이스로 사용합니다.

네임스페이스를 선택하고 Athena로 테이블 만들기를 선택합니다. Athena 콘솔의 쿼리 편집기로 이동합니다. S3 테이블 버킷에 테이블을 생성하거나 테이블에서 데이터를 쿼리할 수 있습니다.

2. Athena와의 쿼리

2. SageMaker 통합 스튜디오에서 SageMaker Lakehouse로 쿼리하기
이제 SageMaker 통합 스튜디오에서 직접 SageMaker Lakehouse의 S3 데이터 레이크, Redshift 데이터 웨어하우스, 타사 및 페더레이션된 데이터 소스의 통합 데이터에 액세스할 수 있습니다.

시작하려면 SageMaker 콘솔로 이동하여 샘플 프로젝트 프로필인 데이터 분석 및 AI-ML 모델 개발을 사용하여 SageMaker Unified Studio 도메인 및 프로젝트를 만드세요. 자세히 알아보려면 AWS 설명서에서 Amazon SageMaker Unified Studio 도메인 생성을 참조하십시오.

프로젝트를 생성한 후 프로젝트 개요로 이동하고 프로젝트 세부 정보로 스크롤하여 프로젝트 역할 Amazon Resource Name(ARN)을 기록해 둡니다.

3. SageMaker Unified Studio의 프로젝트 세부 정보

AWS Lake Formation 콘솔로 이동하여 AWS ID 및 액세스 관리(IAM) 사용자 및 역할에 권한을 부여하십시오. 위탁자 섹션에서 이전 단락에서 언급한 <project role ARN>을(를) 선택합니다. LF-태그 또는 카탈로그 리소스 섹션에서 명명된 데이터 카탈로그 리소스를 선택하고 카탈로그용으로 생성한 테이블 버킷 이름을 선택합니다. 자세히 알아보려면 AWS 설명서의 레이크 포메이션 권한 개요를 참조하십시오.

4. 레이크 포메이션 콘솔에서 권한 부여

SageMaker Unified Studio로 돌아오면 프로젝트 페이지의 왼쪽 탐색 패널에 있는 데이터 메뉴의 Lakehouse에서 테이블 버킷 프로젝트를 볼 수 있습니다. 작업을 선택하면 Amazon Athena, Amazon Redshift 또는 JupyterLab 노트북에서 테이블 버킷 데이터를 쿼리하는 방법을 선택할 수 있습니다.

5. Unified Studio의 S3 테이블

Athena로 쿼리를 선택하면 자동으로 쿼리 편집기로 이동하여 Athena를 사용하여 S3 테이블에서 데이터 쿼리 언어(DQL) 및 데이터 조작 언어(DML) 쿼리를 실행합니다.

다음은 Athena를 사용한 샘플 쿼리입니다.

"s3tablecatalog/s3tables-integblog-bucket”.”proddb"."customer" limit 10;에서 *를 선택합니다.
SQL

6. Unified Studio의 Athena 쿼리

Amazon Redshift로 쿼리하려면 데이터 쿼리 분석을 위한 Amazon Redshift Serverless 컴퓨팅 리소스를 설정해야 합니다. 그런 다음 Redshift로 쿼리를 선택하고 쿼리 편집기에서 SQL을 실행합니다. JupyterLab Notebook을 사용하려면 Amazon EMR Serverless에 새 JupyterLab 스페이스를 만들어야 합니다.

3. 다른 소스의 데이터를 S3 테이블 데이터와 조인합니다.
이제 SageMaker Lakehouse에서 S3 테이블 데이터를 사용할 수 있으므로 데이터 웨어하우스, OLTP(온라인 트랜잭션 처리) 소스(예: 관계형 또는 비관계형 데이터베이스), Iceberg 테이블 및 기타 타사 소스의 데이터와 결합하여 보다 포괄적이고 심층적인 통찰력을 얻을 수 있습니다.

예를 들어 Amazon DocumentDB, Amazon DynamoDB, Amazon Redshift, PostgreSQL, MySQL, Google BigQuery 또는 Snowflake와 같은 데이터 소스에 연결을 추가하고 ETL(추출, 변환 및 로드) 스크립트 없이 SQL을 사용하여 데이터를 결합할 수 있습니다.

이제 쿼리 편집기에서 SQL 쿼리를 실행하여 S3 테이블의 데이터를 DynamoDB의 데이터와 조인할 수 있습니다.

다음은 Athena와 DynamoDB 간에 조인하기 위한 샘플 쿼리입니다.

"s3tablescatalog/s3tables-integblog-bucket"."blogdb"."customer", 
              "dynamodb1"."default"."customer_ddb" where cust_id=pid limit 10;에서 *를 선택합니다
SQL

이 통합에 대해 자세히 알아보려면 AWS 설명서에서 Amazon SageMaker Lakehouse와 Amazon S3 Tables의 통합을 참조하십시오.

정식 출시
S3 테이블과 SageMaker Lakehouse의 통합은 이제 S3 테이블을 사용할 수 있는 모든 AWS 지역에서 일반적으로 사용할 수 있습니다. 자세히 알아보려면 S3 테이블 제품 페이지 SageMaker Lakehouse 페이지를 참조하십시오.

지금 SageMaker Unified Studio에서 S3 Tables를 사용해 보고 Amazon S3용 AWS re:PostAmazon SageMaker용 AWS re:Post에 피드백을 보내거나 일반적인 AWS 지원 담당자를 통해 피드백을 보내십시오.

Amazon S3 출시를 기념하는 연례 행사에서 Amazon S3와 Amazon SageMaker의 멋진 출시를 더 많이 소개할 예정입니다. 자세히 알아보려면 3월 14일에 열리는 AWS Pi Day 이벤트에 참여하십시오.

Channy

뉴스 블로그를 어떻게 생각하시나요? 이 1분짜리 설문조사에 참여해 주세요!

(이 설문조사는 외부 기업에서 호스트합니다. AWS는 AWS 개인정보 처리방침에 설명한 대로 사용자 정보를 처리합니다. AWS는 이 설문 조사를 통해 수집된 데이터를 소유하며 수집된 정보를 설문 응답자와 공유하지 않습니다)