AWS Inferentia

Obtenga un alto rendimiento al menor costo en Amazon EC2 para la inferencia de aprendizaje profundo e IA generativa

¿Por qué Inferentia?

Los aceleradores de AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor costo en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo (DL) e IA generativa. 

El acelerador de AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y coste.

El acelerador de AWS Inferentia2 ofrece un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para implementar modelos cada vez más complejos, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los aceleradores. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de DL e IA generativa. 

El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los aceleradores de AWS Inferentia (y a entrenarlos en los aceleradores de AWS Trainium). Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y flujos de trabajo existentes y ejecutarlos en los aceleradores de Inferentia.

Ventajas de usar AWS Inferentia

Cada acelerador Inferentia de primera generación tiene cuatro NeuronCores de primera generación con hasta 16 aceleradores Inferentia por instancia Inf1 de EC2. Cada acelerador Inferentia2 tiene dos NeuronCores de segunda generación con hasta 12 aceleradores Inferentia2 por instancia Inf2 de EC2. Cada acelerador Inferentia2 admite hasta 190 teraoperaciones flotantes por segundo (TFLOPS) de rendimiento FP16. La primera generación de Inferentia tiene 8 GB de memoria DDR4 por acelerador y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM por acelerador, lo que aumenta la memoria total en 4 veces y el ancho de banda de la memoria en 10 veces con respecto a Inferentia.
El SDK de AWS Neuron se integra de forma nativa con marcos de trabajo de ML populares como PyTorch y TensorFlow. Con AWS Neuron, puede usar estos marcos para implementar de manera óptima modelos de DL en ambos aceleradores de AWS Inferentia, y Neuron está diseñado para minimizar los cambios en el código y la vinculación a soluciones específicas del proveedor. Neuron le ayuda a ejecutar sus aplicaciones de inferencia para la comprensión o el procesamiento de lenguaje natural (NLP), traducción de idiomas, resumen de textos, generación de videos e imágenes, reconocimiento de voz, personalización, detección de fraudes, y mucho más, en aceleradores de Inferentia.
La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.
Inferentia2 agrega optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear probabilísticamente que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.
Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias de Amazon EC2, ya que tanto ellas como los aceleradores subyacentes de Inferentia2 están diseñados para ejecutar modelos de aprendizaje profundo a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

Videos

Una mirada al detrás de escena de la infraestructura de IA generativa en Amazon
Presentamos las instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2
Cómo cuatro clientes de AWS redujeron los costos de ML e impulsaron la innovación con AWS Inferentia