Publicado en: Nov 18, 2019
Nos complace presentar el tiempo de ejecución de Amazon EMR para Apache Spark: un entorno de tiempo de ejecución optimizado para el rendimiento de Apache Spark, que se encuentra disponible y activado de forma predeterminada en los clústeres de Amazon EMR. El tiempo de ejecución de EMR para Spark es hasta 32 veces más rápido con un 100 % de compatibilidad de las API con el código abierto de Spark. El tiempo de ejecución está activado de manera predeterminada a partir de la versión 5.28 de EMR.
Para medir el impacto de estas mejoras, utilizamos consultas de referencia TPC-DS con escala de 3 TB en un clúster de EMR c4.8xlarge de 6 nodos con datos en Amazon S3. Medimos las mejoras en el rendimiento como la media geométrica de la mejora en el tiempo total de ejecución de la consulta y en el tiempo total de ejecución de todas las consultas. Se observó una mejora de 2,4 veces en la media geométrica y de 3,2 veces en el tiempo total de ejecución de la consulta entre EMR 5.16 y EMR 5.28. Para obtener más información sobre las mejoras en el rendimiento y el impacto sobre las consultas de ejecución extendida o corta, consulte nuestro artículo en el blog sobre big data de AWS: Amazon EMR introduces EMR runtime for Apache Spark (Amazon EMR presenta el tiempo de ejecución de EMR para Apache Spark).