Amazon FSx para clientes de Lustre
-
Adobe
Adobe se fundó hace 40 años con la simple idea de crear productos innovadores que cambien el mundo. Adobe ofrece una tecnología innovadora que permite a todos, en cualquier lugar, imaginar, crear y dar vida a cualquier experiencia digital.
Desafío: en lugar de confiar en modelos de código abierto, Adobe decidió entrenar sus propios modelos fundacionales de IA generativa diseñados para casos de uso creativos.
Solución: Adobe creó una autopista de inteligencia artificial en AWS para crear una plataforma de entrenamiento de inteligencia artificial y canalizaciones de datos para iterar modelos rápidamente. Adobe creó su solución con instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2) y P4d con GPU NVIDIA, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Block Store (Amazon EBS), y Amazon Elastic Fabric Adapter (EFA). Adobe también usó Amazon Simple Storage Service (Amazon S3) como lago de datos y repositorio principal para la gran cantidad de datos. Adobe usó el almacenamiento de archivos de alto rendimiento Amazon FSx para Lustre para acceder rápidamente a los datos y garantizar que los recursos de la GPU nunca queden inactivos.
-
LG AI Research
LG AI Research Junto con los principales expertos en IA del mundo, LG AI Research tiene como objetivo liderar la próxima era de la IA para hacer realidad un futuro prometedor junto a usted, mediante un entorno de investigación óptimo y sacando el máximo partido a tecnologías de IA de última generación.
Desafío: LG AI Research necesitaba implementar su modelo base, EXAONE, en producción en el plazo de un año. EXAONE, que significa «IA experta para todos», es un modelo multimodal de 300 000 millones de parámetros que utiliza imágenes y datos de texto.
Solución: LG AI Research utilizó Amazon SageMaker para entrenar su modelo básico a gran escala y Amazon FSx para Lustre para distribuir los datos en instancias a fin de acelerar el entrenamiento del modelo. LG AI Research necesitaba implementar su modelo base, EXAONE, en producción en un año. LG AI Research implementó con éxito EXAONE en un año, y consiguió reducir los costos en aproximadamente un 35 % al eliminar la necesidad de un equipo de administración de infraestructura independiente.
-
Paige
Paige es el principal proveedor de transformación de la patología digital y ofrece una solución web a gran escala, habilitada para IA y basada en la web que aporta eficiencia y confianza al diagnóstico del cáncer.
Desafío: las soluciones en las instalaciones de Paige estaban al límite. Su objetivo era entrenar modelos de IA y ML para ayudar con la patología del cáncer. Paige descubrió que cuanta más capacidad de cómputo tengan, más rápido podrían entrenar sus modelos y ayudar a resolver problemas de diagnóstico.
Solución: Para ejecutar sus cargas de trabajo de formación en machine learning, Paige seleccionó las instancias P4d de Amazon EC2, equipadas con las GPU NVIDIA A100 Tensor Core, que ofrecen un alto rendimiento para el entrenamiento de machine learning y las aplicaciones de HPC en la nube. Paige utiliza Amazon FSx para Lustre, un almacenamiento compartido completamente administrado basado en un popular sistema de archivos de alto rendimiento. La empresa conectó este servicio con algunos de sus buckets de Amazon S3, lo que ayuda a sus equipos de desarrollo a administrar petabytes de datos de entrada de machine learning sin preconfigurar manualmente los datos en sistemas de archivos de alto rendimiento. El resultado de la solución de AWS es que Paige puede entrenar 10 veces más datos en las instalaciones mediante la infraestructura de AWS para el machine learning. Paige también experimentó flujos de trabajo internos un 72 % más rápidos con Amazon EC2 y Amazon FSx para Lustre.
-
Toyota
El Instituto de Investigación de Toyota elige FSx para Lustre con el objetivo de reducir los tiempos de entrenamiento de machine learning con reconocimiento de objetos.
El Instituto de Investigación de Toyota (TRI) recopila y procesa grandes cantidades de datos de sensores de sus pruebas de vehículos autónomos (AV). Cada conjunto de datos de entrenamiento se almacena en un dispositivo NAS en las instalaciones y se transfiere a Amazon Simple Storage Service (Amazon S3) antes de procesarlo en un potente clúster de procesamiento de GPU. El TRI necesitaba un sistema de archivos de alto rendimiento para combinarlo con sus recursos de computación, acelerar el entrenamiento de sus modelos de machine learning y acelerar la obtención de información para sus científicos de datos.
-
Shell
Shell ofrece una cartera dinámica de opciones de energía, desde petróleo, gas y petroquímica hasta energía eólica, solar e hidrógeno. Shell se enorgullece de suministrar la energía que sus clientes necesitan en su día a día.
Desafío: Shell confía en la HPC para la creación, las pruebas y la validación de modelos. De 2020 a 2022, la utilización media de la GPU ha sido inferior al 90 %, lo que ha provocado retrasos en los proyectos y limitaciones en la experimentación con nuevos algoritmos.
Solución: Shell aumenta su capacidad de computación local en las instalaciones al ampliarse en la nube con los clústeres de Amazon EC2 y Amazon FSx para Lustre. Esta solución le da a Shell la capacidad de escalar y desescalar verticalmente con rapidez, y solo adquirir capacidad de cómputo adicional cuando sea necesario. Las GPU de Shell ahora se utilizan al completo, lo que reduce el costo de la computación y acelera las pruebas de modelos de machine learning.
-
Storengy
Storengy, una filial de ENGIE Group, es un proveedor líder de gas natural. La compañía ofrece almacenamiento de gas, soluciones geotérmicas, producción de energía libre de carbono y tecnologías de almacenamiento a empresas de todo el mundo.
Para garantizar que sus productos se almacenen correctamente, Storengy utiliza simuladores de alta tecnología para evaluar el almacenamiento subterráneo de gas, un proceso que requiere un uso generalizado de cargas de trabajo de computación de alto rendimiento (HPC). La empresa también utiliza la tecnología de HPC para ejecutar trabajos de descubrimiento y exploración de gas natural.
-
Smartronix
Smartronix aprovecha FSx para Lustre a fin de ofrecer un alto rendimiento confiable en sus implementaciones de SAS Grid.
Smartronix ofrece soluciones en la nube, ciberseguridad, integración de sistemas, análisis de datos y C5ISR en todo el mundo. También ofrece ingeniería centrada en la misión de muchas de las principales organizaciones comerciales y federales del mundo. Smartronix confió en SAS Grid para analizar y ofrecer estadísticas diarias sobre la COVID en todo el estado y descubrió que su sistema de archivos paralelos autoadministrado era difícil de gestionar y proteger.
-
Netflix
Netflix es un servicio de streaming que ofrece una amplia variedad de series de televisión premiadas, películas, animes, documentales y mucho más.
Desafío: Netflix utiliza entrenamiento distribuido a gran escala para modelos de machine learning multimedia, para la posproducción de miniaturas, efectos visuales y generación de tráileres para miles de videos y millones de clips. Netflix estaba experimentando largas esperas debido a la replicación entre nodos y a un tiempo de inactividad de la GPU del 40 %.
Solución: Netflix rediseñó su canal de carga de datos y mejoró su eficiencia al precalcular todos los clips de video y audio. Netflix también eligió Amazon UltraClusters (instancias P4d de EC2) para acelerar el rendimiento de computación. El rendimiento de Amazon FSx para Lustre permite a Netflix aprovechar al máximo las GPU y eliminar prácticamente el tiempo de inactividad de la GPU. Netflix ahora experimenta una mejora de 3 a 4 veces al utilizar precomputación y FSx para Lustre, lo que reduce el tiempo de entrenamiento del modelo de una semana a uno o dos días.
-
Hyundai
Hyundai Motor Company se ha convertido en un fabricante de automóviles reconocido a nivel mundial que exporta sus vehículos de marca a más de 200 países.
Desafío: uno de los algoritmos que se utilizan con frecuencia en la conducción autónoma es la segmentación semántica, que consiste en anotar cada píxel de una imagen junto a una clase de objeto. Estas clases pueden ser carretera, persona, automóvil, edificio, vegetación, cielo, etc. Hyundai comprueba la precisión y recopila imágenes adicionales para corregir el rendimiento predictivo insuficiente en situaciones específicas. Sin embargo, esto puede ser un desafío, ya que a menudo no hay tiempo suficiente para preparar todos los datos nuevos y, al mismo tiempo, disponer de tiempo suficiente para entrenar el modelo y cumplir con los plazos programados.
Solución: Hyundai seleccionó Amazon SageMaker para automatizar el entrenamiento de modelos y la biblioteca Amazon SageMaker para el paralelismo de datos, a fin de pasar de una sola GPU a un entrenamiento distribuido. Eligieron Amazon FSx para Lustre para entrenar modelos sin tener que esperar a que se copiaran los datos. También eligieron Amazon S3 para el almacenamiento de datos permanente. Hyundai logró una eficiencia de escalado de hasta un 93 % con 8 instancias de GPU, o 64 GPU en total. FSx para Lustre permitió a Hyundai ejecutar varios trabajos de entrenamiento y experimentos con los mismos datos sin tiempo de espera.
-
Rivian
Rivian tiene la misión de mantener el mundo siempre lleno de aventuras. Creemos que hay una forma más responsable de explorar el mundo y estamos decididos a hacer que la transición al transporte sostenible sea emocionante.
Para cumplir con los acelerados programas de ingeniería y reducir la necesidad de prototipos físicos, Rivian, fabricante de vehículos eléctricos, confía en las técnicas avanzadas de modelado y simulación. Con el uso de capacidad de computación elevada, las simulaciones permiten a los ingenieros probar nuevos conceptos e introducir sus diseños en el mercado de forma rápida.
-
DENSO
Denso desarrolla sensores de imagen para sistemas avanzados de asistencia al conductor (ADAS), que ayudan a los conductores con funciones como aparcar y cambiar de carril.
Desafío: Para desarrollar los modelos de machine learning necesarios para el reconocimiento de imágenes ADAS, DENSO creó clústeres de GPU en su entorno local. Sin embargo, varios ingenieros de machine learning compartieron recursos de GPU limitados, lo que afectó a la productividad, especialmente durante el ajetreado período previo al lanzamiento de un nuevo producto.
Solución: al adoptar Amazon SageMaker y Amazon FSx para Lustre, Denso pudo acelerar la creación de modelos de reconocimiento de imágenes ADAS al reducir el tiempo de adquisición de datos, desarrollo de modelos, aprendizaje y evaluación.
-
Joby Aviation
Joby Aviation utiliza AWS para revolucionar el transporte.
Desafío: los ingenieros de Joby confían en la computación de alto rendimiento (HPC) para llevar a cabo miles de simulaciones complejas y de dinámica de fluidos computacional (CFD) que utilizan cientos de núcleos de CPU cada una y pueden tardar muchas horas en completarse.
Solución: el uso de Amazon Elastic Compute Cloud (Amazon EC2) y Amazon FSx para Lustre permitió a Joby obtener resultados más rápidos de sus cargas de trabajo de CFD en comparación con la infraestructura de computación de alto rendimiento en las instalaciones.
-
T-Mobile
T-Mobile ahorra 1,5 millones de USD al año y duplica la velocidad de las cargas de trabajo de SAS Grid con Amazon FSx para Lustre.
Desafío: T-Mobile tenía elevados gastos generales de administración y dificultades de rendimiento debido a su carga de trabajo autoadministrada de SAS Grid.
Solución: T-Mobile implementó Amazon FSx para Lustre, un sistema de archivos de alto rendimiento totalmente administrado, para migrar y escalar su infraestructura de SAS Grid. T-Mobile utilizó la estrecha integración de Amazon FSx y S3 para reducir sus gastos generales de almacenamiento y optimizar las operaciones.
-
Netflix
La producción de la cuarta temporada de la serie dramática de Netflix “The Crown” se enfrentó a desafíos inesperados, ya que el mundo entró en confinamiento por la pandemia de COVID-19 justo cuando estaba previsto que comenzara el trabajo de efectos visuales de postproducción. Al adoptar un flujo de trabajo basado en la nube en AWS, lo que incluye el servidor de archivos de Amazon FSx Lustre para mejorar el rendimiento, el equipo interno de efectos visuales de Netflix, compuesto por 10 artistas, pudo completar sin problemas más de 600 tomas de efectos visuales para los 10 episodios de la temporada en tan solo 8 meses, todo ello trabajando a distancia.
-
Maxar
Maxar utiliza AWS para ofrecer pronósticos un 58 % más rápido que su superequipo meteorológico.
Desafío: Maxar Technologies, un socio de confianza e innovador en inteligencia terrestre e infraestructura espacial, necesitaba ofrecer pronósticos meteorológicos más rápido que su superequipo en las instalaciones.
Solución: Maxar trabajó con AWS para crear una solución de HPC con tecnologías clave como Amazon Elastic Compute Cloud (Amazon EC2), que ofrece recursos informáticos seguros y altamente confiables, Amazon FSx para Lustre, para acelerar el rendimiento de lectura/escritura de su aplicación, y AWS ParallelCluster, para crear rápidamente entornos de computación de HPC en AWS.
-
INEOS TEAM UK
INEOS TEAM UK usa AWS con el fin de acelerar el diseño de barcos para la Copa América.
Desafío: formado en 2018, INEOS TEAM UK tiene como objetivo llevar la Copa América, el trofeo deportivo internacional más antiguo del mundo, a Gran Bretaña. La Copa América restringe las pruebas en el agua a no más de 150 días antes del evento, por lo que las simulaciones de dinámica de fluidos computacional (CFD) de alto rendimiento de monocascos y láminas son fundamentales para el diseño de un barco ganador.
Solución: al usar AWS, el INEOS TEAM UK puede procesar miles de simulaciones de diseño de su barco de la Copa América en una semana en lugar de en más de un mes mediante el uso de un entorno en las instalaciones. INEOS TEAM UK compitió en la 36.ª edición de la Copa América en 2021. El equipo utiliza un entorno de HPC que se ejecuta en instancias de spot de Amazon EC2. Para garantizar el rendimiento de disco rápido para las miles de simulaciones completadas cada semana, el equipo también utilizó Amazon FSx para Lustre para proporcionar un sistema de archivos rápido, escalable y seguro de alto rendimiento con Amazon Simple Storage Service (S3).
-
Hive VFX
Hive VFX reduce los costos iniciales del estudio y funciona como un estudio de efectos visuales en la nube en AWS.
Desafío: Hive necesitaba una infraestructura de alto rendimiento para lanzar un estudio en la nube pequeño e independiente con el fin de que artistas remotos de todo el mundo crearan contenido de calidad.
Solución: Amazon FSx para Lustre, totalmente administrado e integrado con Amazon S3, proporcionó un acceso rápido a los recursos informáticos de AWS sin una gran inversión inicial ni la necesidad de contar con un equipo de TI interno. La perfecta sincronización de los datos de archivo y los permisos de archivo entre FSx Lustre y S3 permitió a Hive VFX almacenar un gran volumen de imágenes y compartir datos de proyectos en todos los continentes.
-
Lyell
Gracias a Amazon FSx para Lustre, Lyell acelera su investigación sobre el tratamiento del cáncer basado en células.
Desafío: Lyell ofrece tratamientos curativos contra el cáncer basados en células que requieren ejecutar un diseño computacional de proteínas a gran escala. Estas cargas de trabajo se ejecutaban tradicionalmente en las instalaciones, pero la empresa necesitaba una solución más escalable y rentable, ya que se limitaba a ejecutar solo un experimento al mes.
Solución: desde que migraron su sistema de archivos a FSx para Lustre, los científicos de datos pueden crear y reducir miles de clústeres de HPC conformados por instancias de EC2 y sistemas de archivos de Amazon FSx, lo que les permite ejecutar rápidamente experimentos con un alto nivel de procesamiento y pagar solo por la computación y el almacenamiento durante la carga de trabajo.
-
BlackThorn Therapeutics
BlackThorn Therapeutics acelera el tiempo de obtención de información con FSx para Lustre.
Desafío: el procesamiento de datos de imágenes por resonancia magnética (IRM) mediante sistemas estándar de archivos en la nube hechos por el usuario requería mucho tiempo y recursos. BlackThorn necesitaba una solución de almacenamiento de archivos compartidos con uso intensivo de computación para ayudar a simplificar sus flujos de trabajo de ciencia de datos y machine learning.
Solución: Amazon FSx para Lustre está integrado con Amazon S3 y Amazon SageMaker, lo que proporciona un procesamiento rápido de sus conjuntos de datos de entrenamiento de ML y un acceso sin problemas a la computación mediante instancias de Amazon EC2.
-
Qubole
Qubole mejora la durabilidad de los datos y, al mismo tiempo, reduce los costos con Amazon FSx para Lustre.
Desafío: Qubole buscaba una solución de almacenamiento de alto rendimiento para procesar cargas de trabajo analíticas y de inteligencia artificial o machine learning para sus clientes. Necesitaban almacenar y procesar fácilmente los datos intermedios contenidos en su flota de spot de EC2.
Solución: Qubole usó Amazon FSx para Lustre a fin de almacenar y procesar datos intermedios a través de su sistema de archivos paralelo de alta velocidad.