AWS Trainium

Obtenga un alto rendimiento para la formación en aprendizaje profundo e IA generativa y, al mismo tiempo, reduzca los costos

¿Por qué Trainium?

AWS Trainium es el chip de machine learning (ML) que AWS creó especialmente para el entrenamiento de aprendizaje profundo (DL) de más de 100 mil millones de modelos de parámetros. Cada instancia Trn1 de Amazon Elastic Compute Cloud (Amazon EC2) implementa hasta 16 aceleradores Trainium que ofrecen una solución de bajo costo y alto rendimiento para el entrenamiento de DL en la nube. Aunque el uso del DL y la IA generativa se acelera, muchos equipos de desarrollo tienen presupuestos fijos, lo que limita el alcance y la frecuencia de la formación necesaria para mejorar sus modelos y aplicaciones. Las instancias Trn1 de Amazon EC2 basadas en Trainium solucionan este problema al ofrecer un tiempo de entrenamiento más rápido y hasta un 50 % de ahorro en el costo del entrenamiento con respecto a instancias comparables de EC2. Trainium se ha optimizado para entrenar el procesamiento del lenguaje natural, la visión artificial y los modelos de recomendación utilizados en un amplio conjunto de aplicaciones, como el resumen de texto, la generación de código, la respuesta a preguntas, la generación de imágenes y videos, la recomendación y la detección de fraudes.

El SDK de AWS Neuron ayuda a los desarrolladores a entrenar modelos en los aceleradores Trainium (y a implementarlos en los aceleradores de AWS Inferentia). Se integra de forma nativa con marcos populares de machine learning, como PyTorch y TensorFlow, para que pueda continuar entrenando los aceleradores Trainium y utilizando su código y flujos de trabajo existentes.

Ventajas de usar Trainium

Las instancias Trn1 con tecnología Trainium ofrecen un alto rendimiento y, al mismo tiempo, reducen los costes de capacitación hasta en un 50 % en comparación con otras instancias Amazon EC2 comparables. Cada acelerador de Trainium incluye dos núcleos NeuronCore de segunda generación diseñados específicamente para algoritmos de DL. Para admitir un paralelismo eficiente de datos y modelos, cada acelerador Trainium tiene 32 GB de memoria de ancho de banda, ofrece hasta 190 TFLOPS de potencia computacional de FP16 o BF16 y cuenta con NeuronLink, una tecnología de interconexión intrainstancia sin bloqueos y de gran ancho de banda.

El SDK de AWS Neuron, compatible con Trainium, se integra de forma nativa con PyTorch y TensorFlow. Esto garantiza que pueda continuar con el uso de sus flujos de trabajo existentes en estos marcos populares y comenzar con Trainium con solo unas pocas líneas de cambios en el código. Para el entrenamiento de modelos distribuidos, el SDK de Neuron admite bibliotecas, como Megatron-LM y PyTorch Fully Sharded Data Parallel (FSDP). Para empezar rápidamente con las instancias Trn1 de Amazon EC2 con tecnología de Trainium, consulte los ejemplos de modelos populares en la documentación de Neuron.

Para ofrecer un alto rendimiento y, al mismo tiempo, cumplir con los objetivos de precisión, Trainium está optimizado para FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8).
Para respaldar el rápido ritmo de innovación del DL y la IA generativa, Trainium cuenta con varias innovaciones que lo hacen flexible y ampliable para entrenar modelos de DL en constante evolución. Trainium cuenta con optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admite operadores personalizados escritos en C++. También admite el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.
Las instancias Trn1 con tecnología Trainium son hasta un 25 % más eficientes desde el punto de vista energético para el entrenamiento de DL que las instancias EC2 de computación acelerada comparables. Las instancias Trn1 le ayudan a alcanzar sus objetivos de sostenibilidad cuando forma modelos ultragrandes.

Videos

Detrás de cámaras en la infraestructura de IA generativa en Amazon
Aceleración del DL e innovación más rápida con AWS Trainium
Introducción a las instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium