Amazon Web Services 한국 블로그

AWS Pi Day 2025: 분석 및 AI를 위한 데이터 기반

매년 3월 14일(3.14) AWS Pi Day에는 데이터 관리 및 작업에 도움이 되는 AWS 혁신 기술을 집중 조명합니다. 2021년에 Amazon Simple Storage Service(Amazon S3) 출시 15주년을 기념하기 위해 시작된 이 행사는 이제 클라우드 기술이 데이터 관리, 분석 및 AI를 어떻게 변화시키고 있는지 조명하는 행사로 성장했습니다.

올해 AWS Pi Day는 AWS 기반 통합 데이터 기반을 통해 분석 및 AI 혁신을 가속화하는 데 중점을 두고 돌아옵니다. 대부분의 엔터프라이즈 전략에서 AI가 등장하고 분석 및 AI 워크로드가 동일한 데이터 및 워크플로우를 중심으로 점점 더 많이 통합되면서 데이터 환경은 중대한 혁신을 거치고 있습니다. 사용자는 단일 통합 환경에서 모든 데이터에 액세스하고 선호하는 모든 분석 및 AI 도구를 사용할 수 있는 간편한 방법이 필요합니다. 이번 AWS Pi Day에는 통합 데이터 경험을 구축하는 데 도움이 되는 일련의 새로운 기능을 소개합니다.

모든 데이터, 분석 및 AI를 위한 센터, 차세대 Amazon SageMaker
re:Invent 2024에는 모든 데이터, 분석 및 AI를 위한 센터, 차세대 Amazon SageMaker를 소개했습니다. SageMaker에는 데이터 탐색, 준비 및 통합, 빅 데이터 처리, 빠른 SQL 분석, 기계 학습(ML) 모델 개발 및 학습, 생성형 AI 애플리케이션 개발에 필요한 거의 모든 구성 요소가 포함되어 있습니다. 이 차세대 Amazon SageMaker를 통해 SageMaker Lakehouse는 데이터에 대한 통합 액세스를 제공하고, SageMaker 카탈로그는 거버넌스 및 보안 요구 사항을 충족하는 데 도움이 됩니다. 자세한 내용은 제 동료 Antje가 작성한 출시 블로그 게시물에서 확인할 수 있습니다.

차세대 Amazon SageMaker의 핵심은 분석 및 AI에 모든 데이터와 도구를 사용할 수 있는 단일 데이터 및 AI 개발 환경인 SageMaker Unified Studio입니다. 오늘 SageMaker Unified Studio가 정식 출시됩니다.

SageMaker Unified Studio는 데이터 과학자, 분석가, 엔지니어 및 개발자가 데이터, 분석, AI 워크플로 및 애플리케이션 작업을 수행할 때 협업을 용이하게 합니다. 데이터 처리, SQL 분석, ML 모델 개발, 생성형 AI 애플리케이션 개발을 비롯한 AWS 분석과 인공 지능 및 기계 학습(AI/ML) 서비스의 친숙한 도구를 단일 사용자 경험으로 제공합니다.

SageMaker Unified Studio

Amazon SageMaker Unified Studio는 Amazon Bedrock의 엄선한 기능을 SageMaker에 도입합니다. Amazon Bedrock Knowledge BasesAmazon Bedrock Guardrails, Amazon Bedrock AgentsAmazon Bedrock Flows와 같은 파운데이션 모델(FM)과 고급 기능을 사용하여 생성형 AI 애플리케이션에 대해 빠르게 프로토타입을 제작하고 사용자 지정하여 요구 사항 및 책임 있는 AI 지침에 맞는 맞춤형 솔루션을 SageMaker 안에서 모두 생성할 수 있습니다.

마지막으로, SageMaker Unified Studio에서 Amazon Q Developer가 정식 출시됩니다. Amazon Q Developer는 데이터 및 AI 개발을 위한 생성형 AI 기반 지원을 제공합니다. SQL 쿼리 작성, 추출, 전환, 적재(ETL) 작업 구축, 문제 해결과 같은 작업에 도움이 되며 기존 구독자의 경우 프리 티어 및 프로 티어로 사용할 수 있습니다.

제 동료 Donnie가 작성한 이 최근 블로그 게시물에서 SageMaker Unified Studio에 대해 자세히 알아볼 수 있습니다.

re:Invent 2024 중에 차세대 SageMaker의 일부로 Amazon SageMaker Lakehouse도 출시했습니다. SageMaker Lakehouse는 Amazon S3 데이터 레이크, Amazon Redshift 데이터 웨어하우스, 타사 및 페더레이션형 데이터 소스 전체의 모든 데이터를 통합합니다. 이를 통해 데이터의 단일 사본을 기반으로 강력한 분석 및 AI/ML 애플리케이션을 구축할 수 있습니다. SageMaker Lakehouse는 Apache Iceberg 호환 도구 및 엔진을 사용하여 데이터를 현재 위치에서 액세스하고 쿼리할 수 있는 유연성을 제공합니다. 또한, 제로 ETL 통합으로 Amazon Aurora 또는 Amazon DynamoDB와 같은 AWS 데이터 소스와 Salesforce, Facebook Ads, Instagram Ads, ServiceNow, SAP, ZendeskZoho CRM과 같은 애플리케이션에서 SageMaker Lakehouse로 데이터를 구축하는 프로세스기 자동화됩니다. 전체 통합 목록은 SageMaker Lakehouse FAQ에서 확인할 수 있습니다.

Amazon S3를 사용한 데이터 기반 구축
데이터 기반 구축은 분석 및 AI 워크로드를 가속화하는 초석으로 조직에서 규모에 관계없이 데이터 자산을 원활하게 관리, 검색 및 활용하도록 지원합니다. Amazon S3는 사실상 무제한의 확장성을 갖춘 데이터 레이크를 구축하기에 세계 최고의 장소이며 이러한 혁신을 위한 필수 토대를 제공합니다.

Amazon S3의 운영 규모를 알게 되면 항상 놀라움을 금치 못합니다. Amazon S3는 현재 400조 개 이상의 객체, 엑사바이트의 데이터를 보유하고 있으며 초당 1억 5천만 건의 요청을 처리합니다. 불과 10년 전만 해도 S3에 1PB(페타바이트) 이상의 데이터를 저장하는 고객은 100명도 되지 않았습니다. 오늘날 수천 명의 고객이 1PB 마일스톤을 초과했습니다.

Amazon S3는 엑사바이트 규모의 테이블 형식 데이터를 저장하며, 테이블 형식 데이터에 대해 초당 평균 1,500만 건 이상의 요청을 처리합니다. S3 버킷에서 테이블 형식 데이터를 관리할 때 발생하는 복잡한 작업을 줄일 수 있도록 AWS re:Invent 2024에서 Amazon S3 Tables를 발표했습니다. S3 테이블은 Apache Iceberg를 기본적으로 지원하는 최초의 클라우드 객체 저장소입니다. S3 테이블은 분석 워크로드에 맞게 특별히 최적화되어 자체 관리형 테이블에 비해 쿼리 처리 속도가 최대 3배 더 빠르고 초당 트랜잭션이 최대 10배 더 높습니다.

Amazon S3 TablesAmazon SageMaker Lakehouse의 통합의 정식 버전 출시를 발표할 예정입니다. Amazon S3 테이블은 이제 Amazon SageMaker Lakehouse와 통합되어 Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue 및 Apache Iceberg 호환 엔진(예: Apache Spark 또는 PyIceberg) 등의 AWS 분석 서비스에서 S3 테이블에 쉽게 액세스할 수 있습니다. SageMaker Lakehouse를 사용하면 S3 테이블 및 기타 소스에 대한 세분화된 데이터 액세스 권한을 중앙 집중식으로 관리하고 모든 엔진에 일관되게 적용할 수 있습니다.

타사 카탈로그를 사용하거나, 사용자 지정 카탈로그 구현이 있거나, 단일 테이블 버킷의 테이블 형식 데이터에 대한 기본적인 읽기 및 쓰기 권한만 필요한 사용자를 위해 Iceberg REST 카탈로그 표준과 호환되는 새로운 API추가했습니다. 이를 통해 모든 Iceberg 호환 애플리케이션은 S3 테이블 버킷에서 테이블을 원활하게 생성, 업데이트, 나열 및 삭제할 수 있습니다. 모든 테이블 형식 데이터, 데이터 거버넌스 및 세분화된 액세스 제어에 대한 통합 데이터 관리를 위해 SageMaker Lakehouse와 함께 S3 테이블을 사용할 수도 있습니다.

S3 테이블에 액세스할 수 있도록 AWS Management Console에서 업데이트를 시작했습니다. 이제 Amazon Athena를 사용하여 테이블을 생성하고 데이터로 채우고 S3 콘솔에서 직접 쿼리할 수 있으므로 보다 쉽게 시작하고 S3 테이블 버킷의 데이터를 분석할 수 있습니다.

다음 스크린샷은 S3 콘솔에서 Athena에 직접 액세스하는 방법을 보여줍니다.

S3 콘솔: Athena로 테이블 생성Athena로 테이블 쿼리 또는 Athena로 테이블 생성을 선택하면 올바른 데이터 소스, 카탈로그 및 데이터베이스에서 Athena 콘솔이 열립니다.

Athena의 S3 테이블

re:Invent 2024 이후로 우리는 계속해서 빠른 속도로 S3 테이블에 새로운 기능을 추가하고 있습니다. 예를 들어 CreateTable API에 스키마 정의 지원을 추가했으며 이제 S3 테이블 버킷에 최대 10,000개의 테이블을 생성할 수 있습니다. 또한 S3 테이블을 8개의 추가 AWS 리전에 출시했으며, 가장 최근에는 3월 4일에 아시아 태평양(서울, 싱가포르, 시드니) 리전에 테이블이 추가되었으며 앞으로 더 많은 리전에 추가될 예정입니다. 설명서의 S3 테이블 AWS 리전 페이지를 참조하여 현재 S3 테이블을 사용할 수 있는 11개 리전 목록을 확인할 수 있습니다.

re:Invent 2024 기간 중에 발표된 Amazon S3 메타데이터1월 27일부터 정식 버전으로 제공되었습니다. 이 기능은 거의 실시간으로 업데이트되는 자동화되고 간편하게 쿼리되는 메타데이터를 사용하여 S3 데이터를 검색하고 이해할 수 있는 가장 빠르고 쉬운 방법입니다. S3 메타데이터는 S3 객체 태그와 함께 작동합니다. 태그를 사용하면 IAM 정책을 적용하여 세분화된 액세스를 제공하고, 태그 기반 필터를 지정하여 객체 라이프사이클 규칙을 관리하고, 선택적으로 데이터를 다른 리전으로 복제하는 등 다양한 이유로 데이터를 논리적으로 그룹화할 수 있습니다. S3 메타데이터를 사용할 수 있는 리전에서는 객체 태그로 저장된 사용자 지정 메타데이터를 캡처하고 쿼리할 수 있습니다. S3 메타데이터를 사용할 때 객체 태그와 관련된 비용을 줄이기 위해 Amazon S3는 모든 리전에서 S3 객체 태깅에 대한 요금을 35%까지 인하하여 사용자 지정 메타데이터를 좀 더 저렴하게 사용할 수 있도록 했습니다.

AWS Pi Day 2025
지난 수년 동안 AWS Pi Day는 클라우드 스토리지 및 데이터 분석 분야에서 중요한 성과를 거두었습니다. 올해 AWS Pi Day 가상 이벤트는 개발자 및 기술 의사 결정권자, 데이터 엔지니어, AI/ML 실무자 및 IT 리더를 위해 설계된 다양한 주제를 다룰 예정입니다. 주요 하이라이트로는 이 게시물에서 설명한 모든 서비스와 기능에 대한 심층 분석, 라이브 데모, 전문가 세션 등이 있습니다.

이 이벤트에 참석하면 분석 및 AI 혁신을 가속화할 수 있는 방법을 배울 수 있습니다. 기본 Apache Iceberg를 지원하는 S3 테이블과 S3 메타데이터를 사용하여 기존 분석과 새로운 AI/ML 워크로드를 모두 지원하는 확장 가능한 데이터 레이크를 구축하는 방법을 알아봅니다. 또한 데이터 레이크, 데이터 웨어하우스, 타사 또는 연합 데이터 소스 등 모든 데이터에 액세스할 수 있는 친숙한 AWS 도구를 사용하여 팀이 통합 스튜디오에서 협업하고 더 빠르게 구축을 진행할 수 있도록 지원하는 차세대 Amazon SageMaker에 대해서도 알아볼 수 있습니다.

최신 클라우드 트렌드에 뒤쳐지지 않으려는 사람들에게 AWS Pi Day 2025는 놓칠 수 없는 이벤트입니다. 데이터 레이크하우스를 구축하든, AI 모델을 학습시키든, 생성형 AI 애플리케이션을 구축하든, 분석 워크로드를 최적화하든, 공유된 인사이트는 데이터의 가치를 극대화하는 데 도움이 됩니다.

지금 바로 시청하고 최신 클라우드 데이터 혁신에 대해 알아보세요. 데이터, 분석 및 AI의 미래를 설계하는 AWS 전문가, 파트너 및 고객과 교류할 기회를 놓치지 마세요.

3월 14일에 있었던 가상 이벤트를 놓치셨다면 언제든지 이벤트 페이지를 방문하실 수 있습니다. 모든 콘텐츠는 온디맨드로 제공될 예정입니다!

— seb


뉴스 블로그의 상황은 어떤가요? 이 1분짜리 설문조사에 참여해 주세요!

(이 설문조사는 외부 기업에서 호스트합니다. AWS는 AWS 개인정보 처리방침에 설명한 대로 사용자 정보를 처리합니다. AWS는 이 설문 조사를 통해 수집된 데이터를 소유하며 수집된 정보를 설문 응답자와 공유하지 않습니다)