게시된 날짜: Oct 14, 2022
AWS Glue에는 Amazon S3 이벤트 알림 기반 크롤러와 Amazon S3의 이벤트 기반 데이터만 스캔하여 데이터 세트를 간편하게 검색하는 기능이 포함되어 있습니다. Glue 크롤러는 데이터 스키마를 추출하고 현재 메타데이터를 유지하도록 자동으로 AWS Glue 데이터 카탈로그를 채웁니다. S3 이벤트 기반 데이터 세트를 크롤링함에 따라 새로 수집된 데이터를 즐겨찾는 분석 및 기계 학습 도구로 신속하게 분석할 수 있게 되어 인사이트를 확보하는 데 걸리는 시간이 단축됩니다.
AWS는 오늘 이러한 증분 크롤링 지원을 확장하고, 데이터 파이프라인 내부에서 실행되는 API 비크롤러 메서드를 통해 생성되는 카탈로그 테이블을 업데이트했습니다. 이 기능을 통해 이제 증분 크롤링을 데이터 파이프라인에서 예약된 Glue 크롤러로 오프로드하여 증분 S3 이벤트에 대한 크롤링을 줄일 수 있습니다.
증분 크롤링을 수행하기 위해 고객은 Amazon S3 이벤트 알림을 구성하여 Amazon Simple Queue Service(SQS) 대기열에 전송할 수 있습니다. 그런 다음 고객은 SQS 대기열을 소스로 사용하여 변경 사항을 식별하고 예약하거나 Glue 데이터 카탈로그 테이블로 Glur 크롤러를 대상으로 실행할 수 있습니다. 크롤러를 실행할 때마다 SQS 대기열에 새로운 이벤트가 있는지 검사합니다. 새로운 이벤트가 없을 경우 크롤러를 중지합니다. 대기열에 이벤트가 있을 경우 크롤러는 해당 폴더를 검사하고 기본 제공 분류자(CSV, JSON, AVRO, XML 등)을 통해 처리하고 변경 사항을 결정합니다. 그런 다음 크롤러는 새로 추가되었거나 삭제된 파티션 또는 열과 같은 새로운 정보로 Glue 데이터 카탈로그를 업데이트합니다. 이 기능을 통해 자주 변경되는 대형 Amazon S3 데이터를 크롤링하여 시간과 비용을 절감합니다.