Amazon Web Services 한국 블로그

Amazon SageMaker Canvas 발표 – 비즈니스 분석가를 위한 손쉬운 노코드 기계 학습 기능

비즈니스 문제에 직면하고 매일 데이터를 처리하는 조직으로서, 비즈니스 결과를 예측할 수 있는 시스템을 구축하는 능력이 매우 중요합니다. 이 기능을 사용하면 느린 프로세스를 자동화하고 IT 시스템에 인텔리전스를 포함시켜 문제를 해결하고 더 빠르게 나아갈 수 있습니다.

하지만 조직의 모든 팀과 개별 의사 결정권자가 다른 데이터 과학 및 데이터 엔지니어링 팀에 의존하지 않고 이러한 기계 학습(ML) 시스템을 대규모로 생성하려면 어떻게 해야 할까요? 비즈니스 사용자 또는 데이터 분석가는 수백 가지의 알고리즘, 훈련 파라미터, 평가 지표 및 배포 모범 사례에 대해 배울 필요 없이 매일 분석 및 처리하는 데이터를 기반으로 예측 시스템을 구축하고 사용하려 합니다.

오늘 저는Amazon SageMaker Canvas 일반 출시를 발표하게 되어 기쁩니다. 이 제품은 비즈니스 분석가가 코드를 작성하거나 기계 학습 전문가를 필요로 하지 않으면서 기계 학습 모델을 구축하며 정확한 예측을 생성할 수 있는 새로운 시각적 기능입니다. 직관적인 사용자 인터페이스를 통해 클라우드 또는 온프레미스에서 서로 다른 데이터 소스를 탐색 및 액세스하고, 버튼 클릭 한 번으로 데이터 세트를 조인하고, 정확한 모델을 학습시킨 다음, 새로운 데이터를 사용할 수 있게 되면 새로운 예측을 생성할 수 있습니다.

SageMaker Canvas는Amazon SageMaker와 동일한 기술을 활용하여 데이터를 자동으로 정리 및 조인하고, 수백 개의 모델을 만들고, 가장 성능이 좋은 모델을 선택하고, 새로운 개별 또는 배치 예측을 생성합니다. 이진 분류, 다중 클래스 분류, 수치 회귀 및 시계열 예측 등의 여러 문제 유형을 지원합니다. 이러한 문제 유형을 사용하면 단 한 줄의 코드도 작성하지 않고 사기 탐지, 이탈 감소, 인벤토리 최적화와 같은 비즈니스 크리티컬 사용 사례를 해결할 수 있습니다.

Amazon SageMaker Canvas 실행
제가 제품의 정시 배송 여부를 예측해야 하는 전자 상거래 관리자라고 상상해보십시오. 제가 처분할 수 있는 데이터 집합은 제품 카탈로그와 CSV 형식의 과거 배송 데이터 집합으로 구성됩니다.

먼저 모든 모델 및 데이터 집합을 생성 및 조사하는 SageMaker Canvas 애플리케이션으로 들어갑니다.

[가져오기]를 선택하고 두 개의 CSV 파일(ProductData.csvShippingData.csv)을 업로드합니다. 120개의 제품과 10,000건의 배송 기록을 가지고 있습니다.

또한 Amazon Simple Storage Service(Amazon S3)에서 데이터를 가져오거나, 또는 기타 클라우드나 Amazon Redshift 또는 Snowflake 등의 온프레미스 데이터 원본에 연결할 수도 있습니다. 이 사용 사례에서는 컴퓨터에서 직접 1.6MB의 데이터를 업로드하는 것을 선호합니다.

가져오기를 확인하기에 앞서, 두 개의 데이터 집합과 그 열 및 해당하는 값을 미리 볼 수 있습니다. 예를 들어 각 제품은 ComputerBrand, ScreenSizePackageWeight을 포함합니다. 배송 데이터 집합의 각 레코드에는 ShippingOrigin, OrderDate, and ShippingPriority 등의 유용한 열 외에도 OnTimeDelivery, (On Time 또는 Late)도 포함됩니다. 이 열은 SageMaker Canvas에서 기록 데이터를 기반으로 예측 모델을 생성하는 데 사용됩니다.

몇 초 간의 처리 이후 데이터 집합이 준비되고, 이를 조인하여 제품 및 배송 정보가 모두 포함된 단일 데이터집합을 만들기로 결정했습니다. 이 단계는 종종 예측 모형의 정밀도를 높일 수 있는 선택적 단계입니다.

이제 두 데이터 집합을 간단히 드래그 앤 드롭하면 됩니다. SageMaker Canvas는 공유된 ProductId 열을 자동으로 식별하고 내부 조인 변환을 적용합니다.

조인 미리 보기를 사용하면 결과 열을 시각화하고, 누락된 값이나 잘못된 값을 식별하며, 선택적으로는 원하지 않는 열을 선택 취소할 수 있습니다.

[조인된 데이터 저장]을 선택하고 16개의 열과 10,000개의 레코드가 포함된 이 조인된 데이터셋에 새 이름을 제공합니다.

다음으로 [새 모델]을 좌측 메뉴의 [모델] 섹션에서 선택하여 모델을 생성 및 시작합니다. 저는 이것을 정시 예측 모델이라고 부릅니다.

첫 번째 단계는 데이터 집합을 선택하는 것입니다.

모델이 예측할 대상 열인 OnTimeDelivery을 선택합니다.

SageMaker Canvas는 값 배포를 보여 주며, 가장 적합한 모델 유형인 두 가지 범주 분류를 이미 권장합니다.

모델 훈련을 진행하기 전에, 분석 보고서를 생성할 수 있는 옵션이 있습니다. 이 분석은 두 가지의 매우 중요한 정보인 예상 정확도와 각 열의 영향을 제공합니다.

99.9% 의 예상 정확도는 제게 자신감을 주지만, 저는 ActualShippingDays 열이 가장 큰 영향을 미친다는 점을 압니다. 안타깝게도 이 열은 미리 사용할 수 없으므로 예측에 사용할 수 없습니다. 그래서 선택을 취소하고 분석을 다시 실행합니다.

새로운 추정 정확도는 94.2%로 여전히 상당히 높습니다. 가장 영향력 있는 열은 ShippingPriority, YShippingDistance, XShippingDistance, 및 Carrier입니다. 이 모든 정보를 미리 사용할 수 있고 예측에 사용할 수 있기 때문에 매우 좋습니다. 반면에 PackageWeightScreenSize 등의 제품 관련 열은 예측에 아주 조금 영향을 미칩니다. 이는 향후 훈련 및 예측 단계에 배송 정보만 제공하여 전체 프로세스를 단순화할 수 있음을 의미합니다.

저는 분석 인사이트에 만족합니다. 따라서 [표준 빌드 옵션]을 선택하여 예측 모델을 진행 및 구축하기로 결정했습니다.

이제 산책을 하거나, 몇 군데의 생산적인 모임에 참석하거나, 가족과 함께 시간을 보낼 수 있습니다. SageMaker Canvas는 저를 위해 모든 작업을 수행하며, 무대 뒤에서 수백 개의 모델을 훈련시키고 있습니다. 이 프로그램은 가장 성과가 좋은 것을 선택하므로 저는 몇 시간 안에 정확한 예측을 생성 할 수 있습니다. 물론 훈련 기간은 데이터 집합 크기와 문제 유형에 따라 달라집니다.

약 1시간 반이 지나면 모델이 준비되고, 콘솔을 통해 정확도와 열 영향을 시각적으로 분석할 수 있습니다. 또한 모형이 시간에 대하여 95.8%의 정확한 값을 예측한다는 점을 알게 되어 기쁩니다. 이 값은 예측 정확도보다 훨씬 높습니다.

선택적으로 정밀도, 리콜, F1 점수 등과 같은 고급 지표를 검사할 수도 있습니다. 이러한 지표는 모델이 어떻게 작동하는지, 그리고 이 모델에서 기대할 수 있는 거짓 양성과 거짓 음성의 종류를 이해하는 데 도움이 됩니다.

여기에서 모델을 Amazon SageMaker Studio에 공유하거나, Canvas UI를 계속 사용하여 새로운 예측을 생성할 수 있습니다.

직관적인 UI로 계속 진행하고 [예측]을 선택하기로 결정했습니다. 이제 개별 레코드 또는 배치 예측용 데이터 집합으로 작업할 수 있습니다.

[단일 예측]을 선택하면 SageMaker Canvas는 제 삶을 단순화하고, 기존 레코드에서 시작할 수 있게 합니다. 열 값을 수정하고, 예측 및 해당 기능 중요도에 대한 즉각적인 피드백을 받습니다.

이 신속한 피드백 루프와 직관적인 UI를 통해 사용자 지정 코드를 작성하지 않고도 기계 학습 모델을 사용할 수 있습니다. 모델을 자동화된 프로덕션 시스템에 통합하기로 결정했다면 Amazon SageMaker Studio 통합을 통해 팀의 다른 데이터 사이언티스트와 손쉽게 모델을 공유할 수 있습니다.

지금 이용 가능
SageMaker Canvas는 일반적으로 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), EU(프랑크푸르트) 및 EU(아일랜드)에서 사용 가능합니다. 로컬 데이터 집합과 Amazon S3, Amazon Redshift 또는 Snowflake에 이미 저장된 데이터와 함께 사용할 수 있습니다. 몇 번의 클릭 만으로 데이터 집합을 준비 및 조인하고, 예상 정확도를 분석하며, 영향력이 있는 열을 확인하고, 가장 실적이 우수한 모델을 훈련하며, 그리고 새로운 개별 또는 배치 예측을 생성할 수 있습니다. 여러분의 의견을 듣고, 기계 학습을 통해 더 많은 비즈니스 문제를 해결할 수 있게 되어 매우 기쁩니다.

Alex