Publicado: Nov 18, 2019
Temos o prazer de anunciar o tempo de execução do Amazon EMR para o Apache Spark - um ambiente com tempo de execução de desempenho otimizado para o Apache Spark, disponível e ativado por padrão nos clusters do Amazon EMR. O tempo de execução do EMR para Spark é até 32 vezes mais rápido com 100% de compatibilidade com a API com o Spark de código aberto. O tempo de execução está em vigor por padrão no lançamento do EMR 5.28.
Para mensurar o impacto dessas melhorias, usamos consultas de benchmark TPC-DS com escala de 3 TB em execução em um cluster do EMR c4.8xlarge de 6 nós com dados no Amazon S3. Avaliamos as melhorias de desempenho como a média geométrica de aprimoramentos do tempo total de execução de consultas e do tempo total de execução de consulta em todas as consultas. Observamos uma melhoria de 2.4x na média geométrica e outra de 3.2x no tempo total de execução da consulta entre o EMR 5.16 e o EMR 5.28. Para obter mais detalhes sobre melhorias de desempenho e o impacto dessas consultas de execução a curto e longo prazo, consulte o nosso post do blog de big data da AWS: Amazon EMR introduz o tempo de execução do EMR para Apache Spark.