Instancias P5 de Amazon EC2
Instancias basadas en GPU de máximo rendimiento para aplicaciones de aprendizaje profundo y HPC
Las instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2), impulsadas por las GPU NVIDIA H100 Tensor Core, y las instancias P5e, impulsadas por las GPU NVIDIA H200 Tensor Core, ofrecen el máximo rendimiento en Amazon EC2 para aplicaciones de aprendizaje profundo (DL) y computación de alto rendimiento (HPC). Le ayudan a acelerar el tiempo de creación de soluciones hasta cuatro veces, en comparación con las instancias de EC2 basadas en GPU de la generación anterior, y a reducir los costos de entrenamiento de ML hasta un 40 %. Las instancias P5 le ayudan a iterar sus soluciones a un ritmo más rápido y a lanzarlas al mercado con mayor rapidez. Puede usar las instancias P5 y P5e para entrenar e implementar modelos de lenguaje de gran tamaño (LLM) y modelos de difusión cada vez más complejos que impulsan las aplicaciones de inteligencia artificial (IA) generativa más exigentes. Estas aplicaciones incluyen la respuesta a preguntas, la generación de código, la generación de video e imágenes y el reconocimiento de voz. También puede usar las instancias para implementar aplicaciones de HPC exigentes a escala en el descubrimiento farmacéutico, el análisis sísmico, la previsión meteorológica y la modelización financiera.
Para ofrecer estas mejoras de rendimiento y ahorro de costos, las instancias P5 y P5e complementan las GPU NVIDIA H100 y H200 Tensor Core con un rendimiento de la CPU 2 veces superior, 2 veces más memoria del sistema y 4 veces más almacenamiento local en comparación con las instancias basadas en GPU de la generación anterior. Ofrecen capacidades de escalabilidad horizontal líderes en el mercado para el entrenamiento distribuido y combinan estrechamente las cargas de trabajo de HPC con hasta 3200 Gbps de redes mediante la tecnología Elastic Fabric Adapter de segunda generación (EFAv2). Para ofrecer computación a gran escala con baja latencia, las instancias P5 y P5e se despliegan en Amazon EC2 UltraClusters que permiten escalar hasta 20 000 GPU H100 o H200. Están interconectados con una red no bloqueante a escala de petabits. Las instancias P5 y P5e de EC2 UltraClusters pueden ofrecer hasta 20 exaflops de capacidad de cálculo agregada, un rendimiento equivalente al de un supercomputadora.
Reserve las instancias P5 ahora para usarlas en el futuro
Con los bloques de capacidad de Amazon EC2 para ML, reserve fácilmente instancias P5 o P5e con hasta ocho semanas de anticipación. Puede reservar estas instancias durante un período de uno a 14 días y en tamaños de clúster de una a 64 instancias (512 GPU), lo que le brinda la flexibilidad de ejecutar una amplia gama de cargas de trabajo.
Beneficios
Entrene más de 100 000 millones de modelos de parámetros a escala
Las instancias P5 y P5e pueden entrenar modelos de IA generativa ultra grandes a escala y ofrecer hasta 4 veces el rendimiento de las instancias EC2 basadas en GPU de la generación anterior.
Reduzca el tiempo de creación de soluciones e itere más rápido
Las instancias P5 y P5e reducen los tiempos de entrenamiento y el tiempo de creación de soluciones de semanas a solo unos días. Esto lo ayuda a iterar a un ritmo más rápido y a llegar al mercado con más rapidez.
Reduzca los costos de su infraestructura de aprendizaje profundo y HPC
Las instancias P5 y P5e ofrecen hasta un 40% de ahorro en costes de formación DL e infraestructura HPC en comparación con las instancias EC2 basadas en GPU de la generación anterior.
Ejecute el entrenamiento distribuido y HPC con computación a exaescala
Las instancias P5 y P5e proporcionan hasta 3200 Gbps de red EFAv2. Estas instancias se implementan en EC2 UltraClusters y ofrecen 20 exaflops de capacidad de computación agregada.
Características
GPU Tensor Core NVIDIA H100 y H200
Las instancias P5 proporcionan hasta 8 GPU NVIDIA H100 con un total de hasta 640 GB de memoria de GPU HBM3 por instancia. Las instancias P5e proporcionan hasta 8 GPU NVIDIA H200 con un total de hasta 1128 GB de memoria de GPU HBM3e por instancia. Ambas instancias admiten hasta 900 GB/s de interconexión de GPU NVSwitch (un total de 3,6 TB/s de ancho de banda biseccional en cada instancia), por lo que cada GPU puede comunicarse con las demás GPU de la misma instancia con una latencia de un solo salto.
Nuevo motor transformador e instrucciones de DPX
Las GPU NVIDIA H100 y H200 tienen un nuevo motor transformador que administra de forma inteligente y elige de forma dinámica entre los cálculos de FP8 y de 16 bits. Esta característica ayuda a acelerar el entrenamiento de aprendizaje profundo más rápido en los LLM en comparación con las GPU A100 de la generación anterior. Para las cargas de trabajo de HPC, las GPU NVIDIA H100 y H200 tienen nuevas instrucciones DPX que aceleran aún más los algoritmos de programación dinámica en comparación con las GPU A100.
Redes de alto rendimiento
Las instancias P5 y P5e ofrecen hasta 3200 Gbps de red EFAv2. EFAv2 ofrece una mejora de hasta un 50 % en el rendimiento de las comunicaciones colectivas para cargas de trabajo de entrenamiento distribuido. EFAv2 se combina con NVIDIA GPUDirect RDMA para permitir comunicación de GPU a GPU de baja latencia entre servidores con omisión de sistema operativo.
Almacenamiento de alto rendimiento
Las instancias P5 y P5e son compatibles con los sistemas de archivos Amazon FSx para Lustre para que pueda acceder a los datos con los cientos de GB/s de rendimiento y los millones de IOPS necesarios para las cargas de trabajo de HPC y aprendizaje profundo a gran escala. Cada instancia P5 y P5e también admite hasta 30 TB de almacenamiento SSD NVMe local para un acceso rápido a grandes conjuntos de datos. También puede utilizar un almacenamiento rentable prácticamente ilimitado con Amazon Simple Storage Service (Amazon S3).
EC2 UltraClusters de segunda generación
Las instancias P5 se implementan en EC2 UltraClusters de segunda generación, que proporcionan una estructura de red que permite una mayor escala, menos saltos de red en el clúster y una latencia más baja que UltraClusters de la generación anterior. Las instancias P5 de UltraClusters pueden escalar hasta 20 000 GPU H100 interconectadas con una red a escala de petabits y ofrecer 20 exaflops de capacidad de computación agregada.
Integración perfecta con otros servicios de AWS
Las instancias P5 y P5e se pueden implementar con las AMI de aprendizaje profundo de AWS (DLAMI) y los contenedores de aprendizaje profundo de AWS. Están disponibles a través de servicios administrados como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch, etc.
Historias de clientes
Anthropic crea sistemas de IA confiables, interpretables y dirigibles que tendrán muchas oportunidades de crear valor de manera comercial y beneficiar al público.
“En Anthropic, estamos trabajando para crear sistemas de IA confiables, interpretables y dirigibles. Si bien los grandes sistemas generales de IA actuales pueden tener beneficios significativos, también pueden ser impredecibles, poco confiables y opacos. Nuestro objetivo es avanzar en estos temas e implementar sistemas que las personas consideren útiles. Nuestra organización es una de las pocas en el mundo que está creando modelos fundamentales para la investigación del aprendizaje profundo. Estos modelos son muy complejos y, para desarrollar y entrenar estos modelos de vanguardia, necesitamos distribuirlos de manera eficiente en grandes clústeres de GPU. En la actualidad, utilizamos ampliamente las instancias P4 de Amazon EC2 y nos entusiasma el lanzamiento de las instancias P5. Esperamos que ofrezcan beneficios sustanciales en relación con la relación precio-rendimiento en comparación con las instancias P4d, y que estén disponibles a la escala masiva necesaria para crear LLM de próxima generación y productos relacionados”.
Tom Brown, Cofounder, Anthropic
Cohere, uno de los principales pioneros en IA lingüística, permite a todos los desarrolladores y empresas crear productos increíbles con la tecnología de procesamiento de lenguaje natural (NLP) líder en el mundo y, al mismo tiempo, mantener sus datos privados y seguros
“Cohere es líder a la hora de ayudar a todas las empresas a aprovechar el poder de la IA lingüística para explorar, generar, buscar y actuar en función de la información de una manera natural e intuitiva, ya que permite implementarla en múltiples plataformas de nube en el entorno de datos que mejor funcione para cada cliente. Las instancias P5 de Amazon EC2 con tecnología de NVIDIA H100 darán rienda suelta a la capacidad de las empresas para crear, crecer y escalar más rápido con su potencia de computación combinada con las capacidades de IA generativa y LLM de última generación de Cohere”.
Aidan Gomez, CEO, Cohere
Hugging Face tiene la misión de democratizar el buen ML.
“Como la comunidad de código abierto de ML de más rápido crecimiento, ahora ofrecemos más de 150 000 modelos previamente entrenados y 25 000 conjuntos de datos en nuestra plataforma para NLP, visión artificial, biología, aprendizaje por refuerzo, etc. Con avances significativos en LLM e IA generativa, estamos trabajando con AWS para crear y contribuir a los modelos de código abierto del mañana. Esperamos poder utilizar las instancias P5 de Amazon EC2 a través de Amazon SageMaker a escala en UltraClusters con EFA para acelerar la entrega de nuevos modelos básicos de IA para todos”.
Julien Chaumond, CTO y Cofounder, Hugging Face
Detalles del producto
Tamaño de la instancia | vCPU | Memoria de la instancia (TiB) | GPU | Memoria de GPU | Ancho de banda de la red (Gbps) | GPUDirect RDMA | GPU de pares | Almacenamiento de la instancia (TB) | Ancho de banda de EBS (Gbps) |
---|---|---|---|---|---|---|---|---|---|
p5.48xlarge | 192 | 2 | 8 H100 | 640 GB HBM3 |
3200 Gbps EFA | Sí | 900 GB/s NVSwitch | 8 x 3,84 SSD NVMe | 80 |
p5e.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e |
3200 Gbps de EFA | Sí | 900 GB/s NVSwitch | 8 x 3,84 SSD NVMe | 80 |
Introducción a los casos de uso de ML
Uso de SageMaker
SageMaker es un servicio completamente administrado que sirve para crear, entrenar e implementar modelos de ML. Cuando se usa con las instancias P5, puede escalar más fácilmente decenas, cientos o miles de GPU para entrenar rápidamente un modelo a cualquier escala sin preocuparse por configurar clústeres ni canalizaciones de datos.
Uso de DLAMI o contenedores de aprendizaje profundo
Con las DLAMI, los investigadores y profesionales de ML acceden a la infraestructura y las herramientas necesarias para agilizar las tareas de DL en la nube, a cualquier escala. Los contenedores de aprendizaje profundo son imágenes de Docker preinstaladas con marcos de DL, que facilitan el despliegue de entornos personalizados de ML con la eliminación de los complicados procesos de creación y optimización de entornos desde cero.
Uso de Amazon EKS o Amazon ECS
Si prefiere administrar sus propias cargas de trabajo en contenedores mediante servicios de orquestación de contenedores, puede implementar instancias P5 con Amazon EKS o Amazon ECS.
Introducción a los casos de uso de HPC
Las instancias P5 son una plataforma ideal para ejecutar simulaciones de ingeniería, finanza computacional, análisis sísmico, modelado molecular, genómica, representaciones y otras cargas de trabajo de HPC con GPU. Con frecuencia, las aplicaciones de HPC exigen un alto nivel de rendimiento de red, almacenamiento ágil, gran capacidad de memoria, capacidades informáticas altas o todas estas características juntas. Las instancias P5 son compatibles con EFAv2, que permite que las aplicaciones de HPC que utilizan Message Passing Interface (MPI) escalen a miles de GPU. AWS Batch y AWS ParallelCluster ayudan a los desarrolladores de HPC a crear y escalar rápidamente aplicaciones de HPC distribuidas.
Más información »
Introducción a AWS
Regístrese para obtener una cuenta de AWS
Acceda automáticamente al nivel gratuito de AWS.
Aprenda con tutoriales de 10 minutos
Explore y aprenda con tutoriales sencillos.
Comience a crear en la consola
Comience a crear soluciones con las guías paso a paso, que le ayudarán a lanzar un proyecto en AWS.