게시된 날짜: Oct 31, 2022
이제 Amazon EMR 릴리스 6.8에서 Apache Hudi 0.11.1 및 Apache Iceberg 0.14.0이 지원됩니다. Amazon EMR on EC2, Amazon EMR on EKS 및 Amazon EMR Serverless에서 이러한 프레임워크를 사용할 수 있습니다.
Amazon EMR 6.8의 Apache Hudi 0.11.1은 Spark 3.3.0을 지원하며, 메타데이터 테이블을 사용한 데이터 건너뛰기와 다중 모달 인덱스도 추가로 지원합니다. 그러므로 테이블에 Bloom 필터와 열 통계 인덱스를 추가하여 쿼리 성능을 대폭 개선할 수 있습니다. 또한 비동기 인덱서 서비스도 추가되어 사용자가 수집을 차단하지 않고 메타데이터 테이블에서 다양한 종류의 인덱스(예: 파일, Bloom 필터, 열 통계)를 생성할 수 있습니다. 뿐만 아니라 Spark SQL도 개선되어 비프라이머리 키 필드를 사용하여 Hudi 테이블의 레코드를 업데이트하거나 삭제하는 작업도 추가로 지원되며, 구문의 타임스탬프를 통한 시간 이동 쿼리도 지원됩니다. 그리고 Flink 통합 기능도 개선되어 Flink 1.13.x와 1.14.x가 모두 지원되며, 맵이나 배열 등의 복잡한 데이터 형식도 지원됩니다. 그리고 Amazon EMR 6.7에서 제공되었던 Hudi 0.11.00의 다양한 버그가 Hudi 0.11.1에서 수정되었습니다. 자세한 내용은 OSS Hudi 릴리스 문서를 참조하세요.
Amazon EMR 6.8의 Apache Iceberg 0.14.0은 Spark 3.3.0을 지원합니다. 그리고 MERGE 및 UPDATE 문을 읽을 때 병합하는 기능과 Z축을 사용해 파티션을 다시 작성하는 기능이 추가로 지원됩니다. 그러므로 여러 열에서 쿼리 조건자를 사용하여 파티션을 효율적으로 재구성할 수 있으며 유사한 데이터를 함께 보관할 수 있습니다. 그리고 Spark 쿼리의 스캔 계획과 관련된 다양한 요소의 성능이 개선되었으며, Parquet Bloom 필터 등을 사용한 행 그룹 건너뛰기도 추가로 지원됩니다. 자세한 내용은 OSS Iceberg 릴리스 문서를 참조하세요.
Amazon EMR 릴리스 6.8은 Amazon EMR이 제공되는 모든 리전에서 정식 출시되었습니다. 자세한 내용은 Amazon EMR의 리전별 가용성 및 릴리스 정보를 참조하세요.