Treinamento do Amazon SageMaker Model

Treine e ajuste modelos de ML e IA generativa

O que é treinamento de modelos do SageMaker?

O Treinamento de modelos do Amazon SageMaker reduz o tempo e o custo para treinar e ajustar modelos de machine learning (ML) em grande escala sem a necessidade de gerenciar a infraestrutura. Você pode aproveitar a infraestrutura de computação de ML de maior performance atualmente disponível, e o Amazon SageMaker AI pode aumentar ou reduzir automaticamente a escala da infraestrutura, de uma a milhares de GPUs. Para treinar modelos de aprendizado profundo com mais rapidez, a IA do SageMaker ajuda você a selecionar e refinar conjuntos de dados em tempo real. As bibliotecas de treinamento distribuídas do SageMaker podem dividir automaticamente grandes modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS, ou você pode usar bibliotecas de terceiros, como DeepSpeed, Horovod ou Megatron. Treine modelos de base (FMs) por semanas e meses sem interrupções, monitorando e reparando automaticamente os clusters de treinamento.

Benefícios do treinamento econômico

O SageMaker AI oferece uma ampla variedade de GPUs e CPUs, bem como aceleradores da AWS, como o AWS Trainium e o AWS Inferentia, para permitir o treinamento de modelos em grande escala. Você aumenta ou diminui automaticamente a infraestrutura, de uma a milhares de GPUs.
O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Você também pode usar receitas otimizadas para se beneficiar do desempenho de última geração e começar rapidamente a treinar e ajustar modelos de IA generativa disponíveis publicamente em minutos. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.
O SageMaker AI pode ajustar automaticamente seu modelo ajustando milhares de combinações de parâmetros de algoritmos para chegar às previsões mais precisas. Use ferramentas de depuração e criação de perfil para corrigir rapidamente os problemas de performance e otimizar a performance do treinamento.
O SageMaker AI permite experimentos eficientes de ML para ajudar a rastrear com mais facilidade as iterações do modelo de ML. Melhore a performance do treinamento de modelos visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência.

Treine modelos em grande escala

Trabalhos de treinamento totalmente gerenciados

Os trabalhos de treinamento do SageMaker fornecem uma experiência de usuário totalmente gerenciada para o treinamento distribuído de grandes FMs, removendo o esforço pesado e não diferenciado associado ao gerenciamento da infraestrutura. Os trabalhos de treinamento do SageMaker configuram automaticamente um cluster de treinamento distribuído resiliente, monitoram a infraestrutura e se recuperam de forma automática de falhas para garantir uma experiência de treinamento sem complicações. Após a conclusão do treinamento, o SageMaker desativa o cluster e você recebe cobranças pelo tempo efetivo de treinamento. Além disso, com os trabalhos de treinamento do SageMaker, você tem a flexibilidade de escolher o tipo de instância mais adequado para cada workload (por exemplo, treinar previamente um grande modelo de linguagem (LLM) em um cluster P5 ou ajustar um LLM de código aberto em instâncias p4d) para otimizar ainda mais seu orçamento de treinamento. Adicionalmente, os trabalhos de treinamento do SagerMaker oferecem uma experiência de usuário consistente para as equipes de ML, independentemente dos níveis de conhecimento técnico e dos tipos de workload.

Saiba mais

SageMaker HyperPod

O Amazon SageMaker HyperPod é uma infraestrutura com o propósito específico de gerenciar com eficiência os clusters de computação para escalar o desenvolvimento de modelos de base (FM). Ele possibilita o uso de técnicas avançadas de treinamento de modelos, o controle da infraestrutura, a otimização da performance e a obtenção de uma observabilidade aprimorada dos modelos. O SageMaker HyperPod é configurado previamente com bibliotecas de treinamento distribuído do SageMaker, permitindo que você divida automaticamente modelos e conjuntos de dados de treinamento entre instâncias de clusters da AWS, ajudando a utilizar de forma eficiente a infraestrutura de computação e de rede do cluster. Ele possibilita um ambiente mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas de hardware, permitindo que você treine continuamente os FMs por meses, sem interrupções, reduzindo o tempo de treinamento em até 40%.

Saiba mais

Treinamento distribuído de alta performance

O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento. Com as receitas, cientistas de dados e desenvolvedores de todos os conjuntos de habilidades se beneficiam do desempenho de última geração e, ao mesmo tempo, começam a treinar e ajustar rapidamente modelos de IA generativa, incluindo o Llama 3.1 405B, o Mixtral 8x22B e o Mistral 7B. As receitas incluem uma pilha de treinamento que foi testada pela AWS, o que elimina semanas de trabalho tedioso ao testar diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e baseadas no AWS Trainium com uma alteração de receita de uma linha e habilitar o ponto de verificação automatizado de modelos para melhorar a resiliência do treinamento. Além disso, execute workloads em produção no atributo de treinamento do SageMaker de sua escolha.

Saiba mais

Ferramentas integradas para interatividade e monitoramento

Amazon SageMaker com MLflow

Use o MLflow com o treinamento do SageMaker para capturar parâmetros de entrada, configurações e resultados, permitindo que você identifique rapidamente os modelos de melhor performance para seu caso de uso. A interface do usuário do MLflow permite que você analise tentativas de treinamento de modelos e registre facilmente modelos candidatos para produção com uma única etapa.

depuração

Amazon SageMaker com TensorBoard

O Amazon SageMaker com TensorBoard ajuda você a economizar tempo de desenvolvimento visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência, como perda de validação que não convergem ou gradientes que estão desaparecendo.

Gerenciamento de experimentos

Novidades

  • Data (do mais recente ao mais antigo)
Nenhum resultado encontrado
1