O que é treinamento de modelos do SageMaker?
O Treinamento de modelos do Amazon SageMaker reduz o tempo e o custo para treinar e ajustar modelos de machine learning (ML) em grande escala sem a necessidade de gerenciar a infraestrutura. Você pode aproveitar a infraestrutura de computação de ML de maior performance atualmente disponível, e o Amazon SageMaker AI pode aumentar ou reduzir automaticamente a escala da infraestrutura, de uma a milhares de GPUs. Para treinar modelos de aprendizado profundo com mais rapidez, a IA do SageMaker ajuda você a selecionar e refinar conjuntos de dados em tempo real. As bibliotecas de treinamento distribuídas do SageMaker podem dividir automaticamente grandes modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS, ou você pode usar bibliotecas de terceiros, como DeepSpeed, Horovod ou Megatron. Treine modelos de base (FMs) por semanas e meses sem interrupções, monitorando e reparando automaticamente os clusters de treinamento.
Benefícios do treinamento econômico
Treine modelos em grande escala
Trabalhos de treinamento totalmente gerenciados
Os trabalhos de treinamento do SageMaker fornecem uma experiência de usuário totalmente gerenciada para o treinamento distribuído de grandes FMs, removendo o esforço pesado e não diferenciado associado ao gerenciamento da infraestrutura. Os trabalhos de treinamento do SageMaker configuram automaticamente um cluster de treinamento distribuído resiliente, monitoram a infraestrutura e se recuperam de forma automática de falhas para garantir uma experiência de treinamento sem complicações. Após a conclusão do treinamento, o SageMaker desativa o cluster e você recebe cobranças pelo tempo efetivo de treinamento. Além disso, com os trabalhos de treinamento do SageMaker, você tem a flexibilidade de escolher o tipo de instância mais adequado para cada workload (por exemplo, treinar previamente um grande modelo de linguagem (LLM) em um cluster P5 ou ajustar um LLM de código aberto em instâncias p4d) para otimizar ainda mais seu orçamento de treinamento. Adicionalmente, os trabalhos de treinamento do SagerMaker oferecem uma experiência de usuário consistente para as equipes de ML, independentemente dos níveis de conhecimento técnico e dos tipos de workload.
SageMaker HyperPod
O Amazon SageMaker HyperPod é uma infraestrutura com o propósito específico de gerenciar com eficiência os clusters de computação para escalar o desenvolvimento de modelos de base (FM). Ele possibilita o uso de técnicas avançadas de treinamento de modelos, o controle da infraestrutura, a otimização da performance e a obtenção de uma observabilidade aprimorada dos modelos. O SageMaker HyperPod é configurado previamente com bibliotecas de treinamento distribuído do SageMaker, permitindo que você divida automaticamente modelos e conjuntos de dados de treinamento entre instâncias de clusters da AWS, ajudando a utilizar de forma eficiente a infraestrutura de computação e de rede do cluster. Ele possibilita um ambiente mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas de hardware, permitindo que você treine continuamente os FMs por meses, sem interrupções, reduzindo o tempo de treinamento em até 40%.
Treinamento distribuído de alta performance
O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento. Com as receitas, cientistas de dados e desenvolvedores de todos os conjuntos de habilidades se beneficiam do desempenho de última geração e, ao mesmo tempo, começam a treinar e ajustar rapidamente modelos de IA generativa, incluindo o Llama 3.1 405B, o Mixtral 8x22B e o Mistral 7B. As receitas incluem uma pilha de treinamento que foi testada pela AWS, o que elimina semanas de trabalho tedioso ao testar diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e baseadas no AWS Trainium com uma alteração de receita de uma linha e habilitar o ponto de verificação automatizado de modelos para melhorar a resiliência do treinamento. Além disso, execute workloads em produção no atributo de treinamento do SageMaker de sua escolha.
Ferramentas integradas para interatividade e monitoramento
Amazon SageMaker com MLflow
Use o MLflow com o treinamento do SageMaker para capturar parâmetros de entrada, configurações e resultados, permitindo que você identifique rapidamente os modelos de melhor performance para seu caso de uso. A interface do usuário do MLflow permite que você analise tentativas de treinamento de modelos e registre facilmente modelos candidatos para produção com uma única etapa.

Amazon SageMaker com TensorBoard
O Amazon SageMaker com TensorBoard ajuda você a economizar tempo de desenvolvimento visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência, como perda de validação que não convergem ou gradientes que estão desaparecendo.

Recursos
Novidades
- Data (do mais recente ao mais antigo)