Amazon EC2 UltraClusters

Execute aplicações de HPC e ML em grande escala

Por que usar UltraClusters do Amazon EC2?

Os UltraClusters do Amazon Elastic Compute Cloud (Amazon EC2) podem ajudar você a escalar para milhares de GPUs ou aceleradores de ML de propósito específico, como o AWS Trainium, para obter acesso sob demanda a um supercomputador. Eles democratizam o acesso à performance de classe de supercomputação para desenvolvedores de machine learning (ML), IA generativa e computação de alta performance (HPC) por meio de um modelo de uso simples com pagamento conforme o uso, sem custos de configuração ou manutenção. As instâncias P5, P4d e Trn1 do Amazon EC2 são todas implantadas em UltraClusters do Amazon EC2.

Os UltraClusters do EC2 consistem em milhares de instâncias aceleradas do EC2 que estão localizadas em uma determinada zona de disponibilidade da AWS e interconectadas usando a rede Elastic Fabric Adapter (EFA) em uma rede sem bloqueio em escala de petabits. Eles também fornecem acesso ao Amazon FSx para Lustre, um armazenamento compartilhado e totalmente gerenciado com base no sistema de arquivos paralelo de alta performance mais popular, para processar rapidamente imensos conjuntos de dados sob demanda e em grande escala com latências inferiores a um milissegundo. Os UltraClusters do EC2 oferecem recursos de aumento de escala horizontal para treinamento distribuído de ML e workloads de HPC de forte acoplamento.

As instâncias P5 e Trn1 do Amazon EC2 usam uma arquitetura de UltraClusters do EC2 de segunda geração, que fornece uma malha de rede para possibilitar menos saltos em todo o cluster, menor latência e maior escala.

Benefícios

Os UltraClusters do EC2 ajudam a reduzir o tempo de treinamento e o tempo de solução de semanas para apenas alguns dias. Isso ajuda você a iterar em um ritmo mais rápido e a colocar suas aplicações de aprendizado profundo (DL), IA generativa e HPC no mercado com mais rapidez.

As instâncias P5 são implantadas em UltraClusters do EC2 com até 20.000 GPUs H100 para oferecer mais de 20 exaflops de capacidade computacional agregada. Da mesma forma, as instâncias Trn1 podem ser escaladas para 30.000 aceleradores Trainium, enquanto as instâncias P4 podem ser escaladas para 10.000 GPUs A100 para oferecer computação em exaescala sob demanda.

Os UltraClusters do EC2 são compatíveis com uma lista cada vez maior de instâncias do EC2 e oferecem a flexibilidade de escolher a opção de computação certa para maximizar a performance e, ao mesmo tempo, manter os custos sob controle para a sua workload.

Recursos

Rede de alta performance

As instâncias do EC2 implantadas nos UltraClusters do EC2 são interconectadas à rede EFA para melhorar a performance das workloads de treinamento distribuídas e das workloads de HPC de acoplamento forte. As instâncias P5 fornecem até 3.200 Gbps; as instâncias Trn1 fornecem até 1.600 Gbps; e as instâncias P4d fornecem até 400 Gbps de rede EFA. O EFA também é acoplado ao NVIDIA GPUDirect RDMA (P5, P4d) e ao NeuronLink (Trn1) para permitir a comunicação de acelerador para acelerador com baixa latência entre servidores com desvio de sistema operacional.

Armazenamento de alta performance

Os UltraClusters do EC2 usam o FSx para Lustre, armazenamento compartilhado totalmente gerenciado baseado no sistema de arquivos paralelos de alta performance mais popular. Com o FSx para Lustre, você pode processar rapidamente grandes conjuntos de dados sob demanda e em grande escala, além de oferecer latências inferiores a um milissegundo. As características de baixa latência e alto throughput do FSx para Lustre são otimizadas para workloads de DL, IA generativa e HPC em UltraClusters do EC2. O FSx para Lustre mantém as GPUs e os aceleradores de ML nos UltraClusters do EC2 alimentados com dados, acelerando as workloads mais exigentes. Essas workloads incluem treinamento em grandes modelos de linguagem (LLM), inferência de IA generativa, DL, genômica e modelagem de riscos financeiros. Você também pode obter acesso a armazenamento econômico praticamente ilimitado com o Amazon Simple Storage Service (Amazon S3).

Instância com suporte

Equipadas com GPUs NVIDIA H100 Tensor Core, as instâncias P5 oferecem a mais alta performance no Amazon EC2 para treinamento de ML e aplicações de HPC.

Saiba mais

Equipadas com GPUs NVIDIA A100 Tensor Core, as instâncias P4d oferecem alta performance para treinamento de ML e aplicações de HPC.

Saiba mais

Com a tecnologia dos aceleradores do AWS Trainium, as instâncias do Trn1 são criadas especificamente para o treinamento de ML de alta performance. Elas oferecem até 50% de economia de custos de treinamento em relação a instâncias EC2 comparáveis.

Saiba mais