Amazon SageMaker HyperPod

Reduza o tempo de treinamento dos modelos de base em até 40% com uma infraestrutura desenvolvida especificamente para treinamento distribuído em grande escala

O que é o SageMaker HyperPod?

O AmazonSageMaker HyperPod elimina o trabalho pesado indiferenciado envolvido na criação e na otimização da infraestrutura de machine learning (ML) para o treinamento de modelos de base (FMs), reduzindo o tempo de treinamento em até 40%. O SageMaker HyperPod é pré-configurado com as bibliotecas de treinamento distribuídas do SageMaker, que permitem que os clientes dividam automaticamente as workloads de treinamento em milhares de aceleradores, para que as workloads possam ser processadas em paralelo para melhorar a performance do modelo. O SageMaker HyperPod também garante que os clientes possam continuar o treinamento do FM sem interrupções, salvando periodicamente os pontos de verificação. Quando ocorre uma falha de hardware durante o treinamento, o SageMaker HyperPod detecta automaticamente a falha, repara ou substitui a instância defeituosa e retoma o treinamento a partir do último ponto de verificação salvo, eliminando a necessidade de os clientes gerenciarem manualmente esse processo e ajudando-os a treinar por semanas ou meses em um ambiente distribuído sem interrupções.

Benefícios do SageMaker HyperPod

O Amazon SageMaker HyperPod é pré-configurado com bibliotecas de treinamento distribuídas do Amazon SageMaker, permitindo que você divida automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudá-lo a escalar workloads de treinamento com eficiência.
As bibliotecas de treinamento distribuídas do Amazon SageMaker otimizam seu trabalho de treinamento para infraestrutura de rede e topologia de cluster da AWS por meio de duas técnicas: paralelismo de dados e paralelismo de modelos. O paralelismo de modelos divide modelos grandes demais para caber em uma única GPU em partes menores antes de distribuí-los em várias GPUs para serem treinados. O paralelismo de dados divide grandes conjuntos de dados para treinar simultaneamente a fim de melhorar a velocidade do treinamento.
O SageMaker HyperPod permite um ambiente de treinamento mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas, permitindo que você treine continuamente os FMs por meses sem interrupções.

Depure e melhore a performance do modelo

Você pode usar ferramentas de ML criadas especificamente no SageMaker HyperPod para melhorar a performance do treinamento. O Amazon SageMaker com TensorBoard ajuda você a economizar tempo de desenvolvimento visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência, como perda de validação que não convergem ou gradientes que estão desaparecendo.

Saiba mais »

Bibliotecas de treinamento distribuídas otimizadas

O SageMaker HyperPod é pré-configurado com bibliotecas distribuídas do SageMaker. Com apenas algumas linhas de código, você pode habilitar o paralelismo de dados em seus scripts de treinamento. O SageMaker HyperPod agiliza a execução de treinamentos distribuídos ao dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS.

Saiba mais »

Verificação e reparo automáticos da integridade do cluster

Se alguma instância apresentar defeito durante uma workload de treinamento, o SageMaker HyperPod detecta e troca automaticamente nós defeituosos por outros saudáveis. Para detectar hardware defeituoso, o SageMaker HyperPod executa regularmente uma série de verificações de integridade da GPU e da rede. 

Programação e orquestração de workloads

A interface do usuário do SageMaker HyperPod é altamente personalizável usando o Slurm. Você pode selecionar e instalar qualquer estrutura ou ferramenta necessária. Todos os clusters são provisionados com o tipo e o número de instâncias que você escolher, e são retidos para uso em todas as workloads.