Amazon Web Services 한국 블로그

AWS Glue로 이상 탐지를 사용하여 데이터 품질 개선(미리 보기)

기계 학습을 사용하여 통계 이상치와 특이한 패턴을 탐지함으로써 데이터 품질을 개선하는 데 도움을 주는 새로운 AWS Glue Data Quality 기능의 평가판을 출시합니다. 코드를 작성하지 않고도, 데이터 품질 문제에 대한 자세한 인사이트, 데이터 품질 점수, 이상을 지속적으로 모니터링하는 데 사용할 수 있는 규칙 권장 사항을 얻을 수 있습니다.

데이터 품질 카운트
AWS 고객들은 이미 데이터를 추출하고 변환하기 위한 데이터 통합 파이프라인을 구축했습니다. 이들 고객은 정확한 비즈니스 의사 결정을 내리는 데 사용할 수 있는 양질의 결과 데이터가 생성되도록 보장하기 위해 데이터 품질 규칙을 설정합니다. 대부분의 경우 이러한 규칙은 비즈니스의 현재 상태를 반영하여 특정 시점에 선택되고 확정된 기준을 기반으로 데이터를 평가합니다. 하지만 비즈니스 환경이 변화하고 데이터의 속성이 바뀔 때 규칙이 검토 및 업데이트되지 않을 수도 있습니다.

예를 들어 초기 단계 비즈니스의 일일 매출이 1만 USD 이상인지 확인하는 규칙을 설정할 수 있습니다. 비즈니스가 성공하고 성장함에 따라 이 규칙을 수시로 확인하고 업데이트해야 하지만, 실제로는 거의 업데이트되지 않습니다. 그 결과, 예상치 못한 매출 감소가 발생하면 낡은 규칙이 적용되지 않아 만족스러운 결과를 얻지 못하게 됩니다.

이상 탐지의 작동 원리
특이한 패턴을 감지하고 데이터에 대한 자세한 인사이트를 얻기 위해 조직들은 자체 적응형 시스템을 구축하거나 특정 기술 역량과 전문 비즈니스 지식이 요구되는 값비싼 상용 솔루션으로 전환하려고 시도합니다.

널리 만연한 이 문제를 해결하기 위해 이제 Glue Data Quality는 기계 학습(ML)을 활용합니다.

Glue Data Quality에 새로 추가된 이 기능은 활성화되면 새로운 데이터가 도착하는 대로 통계를 수집합니다. 그리고 ML 및 동적 임계값을 사용하여 과거 패턴을 학습하면서 이상치와 특이한 데이터 패턴을 찾아냅니다. 이 프로세스는 관찰 결과를 생성하고 추세를 시각화하여 이상을 더 빠르게 효과적으로 파악할 수 있도록 합니다.

또한 관찰 결과의 일부로 규칙 권장 사항을 받을 수 있으며, 이를 데이터 파이프라인에 점진적으로 손쉽게 추가할 수 있습니다. 규칙을 통해 데이터 파이프라인을 중지하는 등의 작업을 적용할 수 있습니다. 이전에는 정적 규칙만 작성할 수 있었습니다. 이제 임계값이 자동으로 조정되는 동적 규칙과 반복되는 패턴을 파악하고 편차를 찾아내는 AnomalyDetection 규칙을 작성할 수 있습니다. 규칙을 데이터 파이프라인의 일부로 사용하면, 데이터 흐름을 중지하여 데이터 엔지니어가 검토, 수정 및 재개하도록 지원할 수 있습니다.

이상 탐지 기능을 사용하기 위해 작업에 Evaluate Data Quality라는 노드를 추가합니다.

이 노드를 선택하고 Add analyzer(분석기 추가)를 클릭하여 통계와 열을 선택합니다.

Glue Data Quality가 데이터를 학습하여 패턴을 인식한 다음 데이터 품질 탭에 표시되는 관찰 결과를 생성합니다.

그리고 시각화합니다.

관찰 결과를 검토한 후 새 규칙을 추가합니다. 첫 번째는 행 수가 최근 10건의 실행 중 가장 작은 실행과 최근 20건의 실행 중 가장 큰 실행의 행 수 사이인지 확인하는 적응 임계값을 설정합니다. 두 번째는 주말에 RowCount가 비정상적으로 높은 경우와 같은 특이한 패턴을 찾습니다.

평가판 사용해 보기
이 새로운 기능은 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오리건), 아시아 태평양(도쿄) 및 유럽(아일랜드)의 AWS 리전에서 평가판으로 제공됩니다. 자세한 내용은 Data Quality Anomaly Detection(Data Quality 이상 탐지)를 참조하세요.

이 기능이 출시되면 자세한 블로그 게시물을 제공할 예정입니다.

자세히 알아보기

데이터 품질 이상 탐지

Jeff;