Amazon FSx para clientes de Lustre

  • Adobe

    Adobe se fundó hace 40 años con la simple idea de crear productos innovadores que cambien el mundo. Adobe ofrece una tecnología innovadora que permite a todos, en cualquier lugar, imaginar, crear y dar vida a cualquier experiencia digital.

    Desafío: en lugar de confiar en modelos de código abierto, Adobe decidió entrenar sus propios modelos fundacionales de IA generativa diseñados para casos de uso creativos.

    Solución: Adobe creó una autopista de inteligencia artificial en AWS para crear una plataforma de entrenamiento de inteligencia artificial y canalizaciones de datos para iterar modelos rápidamente. Adobe creó su solución con instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2) y P4d con GPU NVIDIA, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Block Store (Amazon EBS), y Amazon Elastic Fabric Adapter (EFA). Adobe también usó Amazon Simple Storage Service (Amazon S3) como lago de datos y repositorio principal para la gran cantidad de datos. Adobe usó el almacenamiento de archivos de alto rendimiento Amazon FSx para Lustre para acceder rápidamente a los datos y garantizar que los recursos de la GPU nunca queden inactivos.

    Es fácil pensar que voy a crear mi propia nube de IA, pero la asociación con AWS nos permite centrarnos en nuestros factores diferenciadores

    Alexandru Costin, vicepresidente de IA generativa y sensei de Adobe
    Lea el caso práctico de Adobe. »
  • LG AI Research

    LG AI Research Junto con los principales expertos en IA del mundo, LG AI Research tiene como objetivo liderar la próxima era de la IA para hacer realidad un futuro prometedor junto a usted, mediante un entorno de investigación óptimo y sacando el máximo partido a tecnologías de IA de última generación.

    Desafío: LG AI Research necesitaba implementar su modelo base, EXAONE, en producción en el plazo de un año. EXAONE, que significa «IA experta para todos», es un modelo multimodal de 300 000 millones de parámetros que utiliza imágenes y datos de texto.

    Solución: LG AI Research utilizó Amazon SageMaker para entrenar su modelo básico a gran escala y Amazon FSx para Lustre para distribuir los datos en instancias a fin de acelerar el entrenamiento del modelo. LG AI Research necesitaba implementar su modelo base, EXAONE, en producción en un año. LG AI Research implementó con éxito EXAONE en un año, y consiguió reducir los costos en aproximadamente un 35 % al eliminar la necesidad de un equipo de administración de infraestructura independiente.

    Lea el caso práctico de LG AI Research. »
  • Paige

    Paige es el principal proveedor de transformación de la patología digital y ofrece una solución web a gran escala, habilitada para IA y basada en la web que aporta eficiencia y confianza al diagnóstico del cáncer.

    Desafío: las soluciones en las instalaciones de Paige estaban al límite. Su objetivo era entrenar modelos de IA y ML para ayudar con la patología del cáncer. Paige descubrió que cuanta más capacidad de cómputo tengan, más rápido podrían entrenar sus modelos y ayudar a resolver problemas de diagnóstico.

    Solución: Para ejecutar sus cargas de trabajo de formación en machine learning, Paige seleccionó las instancias P4d de Amazon EC2, equipadas con las GPU NVIDIA A100 Tensor Core, que ofrecen un alto rendimiento para el entrenamiento de machine learning y las aplicaciones de HPC en la nube. Paige utiliza Amazon FSx para Lustre, un almacenamiento compartido completamente administrado basado en un popular sistema de archivos de alto rendimiento. La empresa conectó este servicio con algunos de sus buckets de Amazon S3, lo que ayuda a sus equipos de desarrollo a administrar petabytes de datos de entrada de machine learning sin preconfigurar manualmente los datos en sistemas de archivos de alto rendimiento. El resultado de la solución de AWS es que Paige puede entrenar 10 veces más datos en las instalaciones mediante la infraestructura de AWS para el machine learning.  Paige también experimentó flujos de trabajo internos un 72 % más rápidos con Amazon EC2 y Amazon FSx para Lustre. 

    Al conectar Amazon FSx para Lustre a Amazon S3, podemos entrenar con 10 veces la cantidad de datos que hemos probado en la infraestructura local sin problemas.

    Alexander van Eck, Staff AI Engineer - Paige
    Lea el caso práctico: Paige impulsa el tratamiento del cáncer mediante un flujo de trabajo de machine learning híbrido creado con instancias P4d de Amazon EC2. »
  • Toyota

    El Instituto de Investigación de Toyota elige FSx para Lustre con el objetivo de reducir los tiempos de entrenamiento de machine learning con reconocimiento de objetos.

    El Instituto de Investigación de Toyota (TRI) recopila y procesa grandes cantidades de datos de sensores de sus pruebas de vehículos autónomos (AV). Cada conjunto de datos de entrenamiento se almacena en un dispositivo NAS en las instalaciones y se transfiere a Amazon Simple Storage Service (Amazon S3) antes de procesarlo en un potente clúster de procesamiento de GPU. El TRI necesitaba un sistema de archivos de alto rendimiento para combinarlo con sus recursos de computación, acelerar el entrenamiento de sus modelos de machine learning y acelerar la obtención de información para sus científicos de datos.

    Necesitábamos un sistema de archivos paralelo para nuestros conjuntos de datos de entrenamiento de ML y elegimos Amazon FSx para Lustre por su mayor disponibilidad y durabilidad, en comparación con nuestra oferta de sistemas de archivos heredada. La integración con los servicios de AWS, incluido S3, también la convirtió en nuestra opción preferida para el almacenamiento de archivos de alto rendimiento.

    David Fluck, ingeniero de software del Instituto de Investigación de Toyota
  • Shell

    Shell ofrece una cartera dinámica de opciones de energía, desde petróleo, gas y petroquímica hasta energía eólica, solar e hidrógeno. Shell se enorgullece de suministrar la energía que sus clientes necesitan en su día a día. 

    Desafío: Shell confía en la HPC para la creación, las pruebas y la validación de modelos. De 2020 a 2022, la utilización media de la GPU ha sido inferior al 90 %, lo que ha provocado retrasos en los proyectos y limitaciones en la experimentación con nuevos algoritmos.

    Solución: Shell aumenta su capacidad de computación local en las instalaciones al ampliarse en la nube con los clústeres de Amazon EC2 y Amazon FSx para Lustre. Esta solución le da a Shell la capacidad de escalar y desescalar verticalmente con rapidez, y solo adquirir capacidad de cómputo adicional cuando sea necesario. Las GPU de Shell ahora se utilizan al completo, lo que reduce el costo de la computación y acelera las pruebas de modelos de machine learning.

  • Storengy

    Storengy, una filial de ENGIE Group, es un proveedor líder de gas natural. La compañía ofrece almacenamiento de gas, soluciones geotérmicas, producción de energía libre de carbono y tecnologías de almacenamiento a empresas de todo el mundo.

    Para garantizar que sus productos se almacenen correctamente, Storengy utiliza simuladores de alta tecnología para evaluar el almacenamiento subterráneo de gas, un proceso que requiere un uso generalizado de cargas de trabajo de computación de alto rendimiento (HPC). La empresa también utiliza la tecnología de HPC para ejecutar trabajos de descubrimiento y exploración de gas natural.

    Gracias a AWS, tenemos la escalabilidad y alta disponibilidad para hacer cientos de simulaciones a la vez. Además, la solución se escala o desescala verticalmente de manera automática para admitir nuestros períodos de máxima carga de trabajo, lo que significa que no habrá sorpresas en nuestro entorno de HPC.

    Jean-Frederic Thebault, ingeniero, Storengy
  • Smartronix

    Smartronix aprovecha FSx para Lustre a fin de ofrecer un alto rendimiento confiable en sus implementaciones de SAS Grid.

    Smartronix ofrece soluciones en la nube, ciberseguridad, integración de sistemas, análisis de datos y C5ISR en todo el mundo. También ofrece ingeniería centrada en la misión de muchas de las principales organizaciones comerciales y federales del mundo. Smartronix confió en SAS Grid para analizar y ofrecer estadísticas diarias sobre la COVID en todo el estado y descubrió que su sistema de archivos paralelos autoadministrado era difícil de gestionar y proteger.

    Colaborar con AWS y aprovechar sus soluciones administradas, como FSx para Lustre, nos ha permitido prestar un mejor servicio a nuestros clientes, con una mayor disponibilidad y un costo un 29 % menor que los sistemas de archivos autoadministrados.

    Rob Mounier, arquitecto de soluciones sénior, Smartronix
  • Netflix

    Netflix es un servicio de streaming que ofrece una amplia variedad de series de televisión premiadas, películas, animes, documentales y mucho más.

    Desafío: Netflix utiliza entrenamiento distribuido a gran escala para modelos de machine learning multimedia, para la posproducción de miniaturas, efectos visuales y generación de tráileres para miles de videos y millones de clips. Netflix estaba experimentando largas esperas debido a la replicación entre nodos y a un tiempo de inactividad de la GPU del 40 %.

    Solución: Netflix rediseñó su canal de carga de datos y mejoró su eficiencia al precalcular todos los clips de video y audio. Netflix también eligió Amazon UltraClusters (instancias P4d de EC2) para acelerar el rendimiento de computación. El rendimiento de Amazon FSx para Lustre permite a Netflix aprovechar al máximo las GPU y eliminar prácticamente el tiempo de inactividad de la GPU. Netflix ahora experimenta una mejora de 3 a 4 veces al utilizar precomputación y FSx para Lustre, lo que reduce el tiempo de entrenamiento del modelo de una semana a uno o dos días.

    Vea el video: Entrenamiento distribuido a gran escala de modelos de machine learning multimedia con Amazon FSx para Lustre. »
  • Hyundai

    Hyundai Motor Company se ha convertido en un fabricante de automóviles reconocido a nivel mundial que exporta sus vehículos de marca a más de 200 países.

    Desafío: uno de los algoritmos que se utilizan con frecuencia en la conducción autónoma es la segmentación semántica, que consiste en anotar cada píxel de una imagen junto a una clase de objeto. Estas clases pueden ser carretera, persona, automóvil, edificio, vegetación, cielo, etc. Hyundai comprueba la precisión y recopila imágenes adicionales para corregir el rendimiento predictivo insuficiente en situaciones específicas. Sin embargo, esto puede ser un desafío, ya que a menudo no hay tiempo suficiente para preparar todos los datos nuevos y, al mismo tiempo, disponer de tiempo suficiente para entrenar el modelo y cumplir con los plazos programados.

    Solución: Hyundai seleccionó Amazon SageMaker para automatizar el entrenamiento de modelos y la biblioteca Amazon SageMaker para el paralelismo de datos, a fin de pasar de una sola GPU a un entrenamiento distribuido. Eligieron Amazon FSx para Lustre para entrenar modelos sin tener que esperar a que se copiaran los datos. También eligieron Amazon S3 para el almacenamiento de datos permanente. Hyundai logró una eficiencia de escalado de hasta un 93 % con 8 instancias de GPU, o 64 GPU en total. FSx para Lustre permitió a Hyundai ejecutar varios trabajos de entrenamiento y experimentos con los mismos datos sin tiempo de espera.

    Lea la publicación de blog del cliente »
  • Rivian

    Rivian tiene la misión de mantener el mundo siempre lleno de aventuras. Creemos que hay una forma más responsable de explorar el mundo y estamos decididos a hacer que la transición al transporte sostenible sea emocionante.

    Para cumplir con los acelerados programas de ingeniería y reducir la necesidad de prototipos físicos, Rivian, fabricante de vehículos eléctricos, confía en las técnicas avanzadas de modelado y simulación. Con el uso de capacidad de computación elevada, las simulaciones permiten a los ingenieros probar nuevos conceptos e introducir sus diseños en el mercado de forma rápida.

    La asociación con Amazon permite a Rivian centrarse en el desarrollo y la entrega de vehículos sostenibles, no en la TI. Además, con Amazon, ejecutamos nuestras aplicaciones de desarrollo clave más rápido que en las instalaciones, por ejemplo: un 56 % más rápido en Elements, un 35 % más rápido en Siemens y un 20 % más rápido en Ansys.

    Madhavi Osanaka, CIO - Rivian
    Leer el caso práctico de Rivian »
  • DENSO

    Denso desarrolla sensores de imagen para sistemas avanzados de asistencia al conductor (ADAS), que ayudan a los conductores con funciones como aparcar y cambiar de carril.

    Desafío: Para desarrollar los modelos de machine learning necesarios para el reconocimiento de imágenes ADAS, DENSO creó clústeres de GPU en su entorno local. Sin embargo, varios ingenieros de machine learning compartieron recursos de GPU limitados, lo que afectó a la productividad, especialmente durante el ajetreado período previo al lanzamiento de un nuevo producto.

    Solución: al adoptar Amazon SageMaker y Amazon FSx para Lustre, Denso pudo acelerar la creación de modelos de reconocimiento de imágenes ADAS al reducir el tiempo de adquisición de datos, desarrollo de modelos, aprendizaje y evaluación.

    “La práctica de migrar a la nube seguirá acelerándose en el campo de la inteligencia artificial y el machine learning. Estoy seguro de que AWS seguirá apoyándonos a medida que sigamos agregando funciones”.

    Kensuke Yokoi, General Manager - DENSO
    Lea el caso práctico de Denso. »
  • Joby Aviation

    Joby Aviation utiliza AWS para revolucionar el transporte.

    Desafío: los ingenieros de Joby confían en la computación de alto rendimiento (HPC) para llevar a cabo miles de simulaciones complejas y de dinámica de fluidos computacional (CFD) que utilizan cientos de núcleos de CPU cada una y pueden tardar muchas horas en completarse.

    Solución: el uso de Amazon Elastic Compute Cloud (Amazon EC2) y Amazon FSx para Lustre permitió a Joby obtener resultados más rápidos de sus cargas de trabajo de CFD en comparación con la infraestructura de computación de alto rendimiento en las instalaciones.

    Cuando intentamos ejecutar docenas de simulaciones a la vez, leíamos y escribíamos varios gigabytes de datos al mismo tiempo, lo que hacía todo más lento. FSx para Lustre eliminó esos problemas de capacidad. Ahora podemos aumentar el tamaño de nuestro disco duro fácilmente.

    Alex Stoll, jefe de aeromecánica, Joby Aviation
    Lea el caso práctico de Joby Aviation »
  • T-Mobile

    T-Mobile ahorra 1,5 millones de USD al año y duplica la velocidad de las cargas de trabajo de SAS Grid con Amazon FSx para Lustre.

    Desafío: T-Mobile tenía elevados gastos generales de administración y dificultades de rendimiento debido a su carga de trabajo autoadministrada de SAS Grid.

    Solución: T-Mobile implementó Amazon FSx para Lustre, un sistema de archivos de alto rendimiento totalmente administrado, para migrar y escalar su infraestructura de SAS Grid. T-Mobile utilizó la estrecha integración de Amazon FSx y S3 para reducir sus gastos generales de almacenamiento y optimizar las operaciones.

    Amazon FSx para Lustre nos ayudó a duplicar la velocidad de nuestras cargas de trabajo de SAS Grid, a reducir nuestro costo total de propiedad en un 83 % y a eliminar por completo nuestra carga operativa. La asociación con AWS nos permite centrarnos en lo que mejor sabemos hacer: desarrollar productos innovadores para nuestros clientes y, al mismo tiempo, confiar en las funciones de almacenamiento de vanguardia de FSx y en las capacidades de alojamiento de primera clase de AWS.

    Dinesh Korde, gerente sénior de desarrollo de software, T-Mobile
  • Netflix

    La producción de la cuarta temporada de la serie dramática de Netflix “The Crown” se enfrentó a desafíos inesperados, ya que el mundo entró en confinamiento por la pandemia de COVID-19 justo cuando estaba previsto que comenzara el trabajo de efectos visuales de postproducción. Al adoptar un flujo de trabajo basado en la nube en AWS, lo que incluye el servidor de archivos de Amazon FSx Lustre para mejorar el rendimiento, el equipo interno de efectos visuales de Netflix, compuesto por 10 artistas, pudo completar sin problemas más de 600 tomas de efectos visuales para los 10 episodios de la temporada en tan solo 8 meses, todo ello trabajando a distancia. 

    Leer la entrada del blog “The Crown en la nube” »
  • Maxar

    Maxar utiliza AWS para ofrecer pronósticos un 58 % más rápido que su superequipo meteorológico.

    Desafío: Maxar Technologies, un socio de confianza e innovador en inteligencia terrestre e infraestructura espacial, necesitaba ofrecer pronósticos meteorológicos más rápido que su superequipo en las instalaciones.

    Solución: Maxar trabajó con AWS para crear una solución de HPC con tecnologías clave como Amazon Elastic Compute Cloud (Amazon EC2), que ofrece recursos informáticos seguros y altamente confiables, Amazon FSx para Lustre, para acelerar el rendimiento de lectura/escritura de su aplicación, y AWS ParallelCluster, para crear rápidamente entornos de computación de HPC en AWS.

    Maxar usó Amazon FSx para Lustre en nuestra solución de computación de alto rendimiento (HPC) de AWS para ejecutar el modelo numérico de previsión meteorológica de la NOAA. Esto nos permitió reducir el tiempo de computación en un 58 % y generar la previsión en unos 45 minutos a un precio mucho más rentable. Maximizar nuestros recursos de computación de AWS supuso un aumento increíble en el rendimiento.

    Stefan Cecelski, doctor, ingeniero y científico de datos sénior, Maxar Technologies
    Leer el caso práctico de Maxar »
  • INEOS TEAM UK

    INEOS TEAM UK usa AWS con el fin de acelerar el diseño de barcos para la Copa América.

    Desafío: formado en 2018, INEOS TEAM UK tiene como objetivo llevar la Copa América, el trofeo deportivo internacional más antiguo del mundo, a Gran Bretaña. La Copa América restringe las pruebas en el agua a no más de 150 días antes del evento, por lo que las simulaciones de dinámica de fluidos computacional (CFD) de alto rendimiento de monocascos y láminas son fundamentales para el diseño de un barco ganador.  

    Solución: al usar AWS, el INEOS TEAM UK puede procesar miles de simulaciones de diseño de su barco de la Copa América en una semana en lugar de en más de un mes mediante el uso de un entorno en las instalaciones. INEOS TEAM UK compitió en la 36.ª edición de la Copa América en 2021. El equipo utiliza un entorno de HPC que se ejecuta en instancias de spot de Amazon EC2.  Para garantizar el rendimiento de disco rápido para las miles de simulaciones completadas cada semana, el equipo también utilizó Amazon FSx para Lustre para proporcionar un sistema de archivos rápido, escalable y seguro de alto rendimiento con Amazon Simple Storage Service (S3).

    AWS nos permite dar pasos de diseño más importantes, simplemente porque tenemos más tiempo para comprender nuestros resultados.

    Nick Holroyd, director de diseño, INEOS Team UK
    Leer el caso práctico de INEOS Team UK »
  • Hive VFX

    Hive VFX reduce los costos iniciales del estudio y funciona como un estudio de efectos visuales en la nube en AWS.

    Desafío: Hive necesitaba una infraestructura de alto rendimiento para lanzar un estudio en la nube pequeño e independiente con el fin de que artistas remotos de todo el mundo crearan contenido de calidad.

    Solución: Amazon FSx para Lustre, totalmente administrado e integrado con Amazon S3, proporcionó un acceso rápido a los recursos informáticos de AWS sin una gran inversión inicial ni la necesidad de contar con un equipo de TI interno. La perfecta sincronización de los datos de archivo y los permisos de archivo entre FSx Lustre y S3 permitió a Hive VFX almacenar un gran volumen de imágenes y compartir datos de proyectos en todos los continentes.

    Puedo poner en marcha un sistema de archivos Amazon FSx para Lustre en 5 minutos y todo está administrado por AWS.

    Bernie Kimbacher, fundador de Hive VFX
    Leer el caso práctico de Hive VFX »
  • Lyell

    Gracias a Amazon FSx para Lustre, Lyell acelera su investigación sobre el tratamiento del cáncer basado en células.

    Desafío: Lyell ofrece tratamientos curativos contra el cáncer basados en células que requieren ejecutar un diseño computacional de proteínas a gran escala. Estas cargas de trabajo se ejecutaban tradicionalmente en las instalaciones, pero la empresa necesitaba una solución más escalable y rentable, ya que se limitaba a ejecutar solo un experimento al mes.

    Solución: desde que migraron su sistema de archivos a FSx para Lustre, los científicos de datos pueden crear y reducir miles de clústeres de HPC conformados por instancias de EC2 y sistemas de archivos de Amazon FSx, lo que les permite ejecutar rápidamente experimentos con un alto nivel de procesamiento y pagar solo por la computación y el almacenamiento durante la carga de trabajo.

    Amazon FSx para Lustre acelera nuestra investigación en el desarrollo del tratamiento contra el cáncer de próxima generación. Con FSx, redujimos el tiempo de ejecución de nuestros experimentos de semanas a horas y permitimos a los científicos probar muchas más hipótesis que antes. Nuestras cargas de trabajo que se ejecutan en decenas de miles de nodos de computación ahora pueden usar FSx para acceder a los datos de S3 en conjuntos superelevados.

    Anish Kejariwal, director de ingeniería de análisis de datos, Lyell Immunopharma
  • BlackThorn Therapeutics

    BlackThorn Therapeutics acelera el tiempo de obtención de información con FSx para Lustre.

    Desafío: el procesamiento de datos de imágenes por resonancia magnética (IRM) mediante sistemas estándar de archivos en la nube hechos por el usuario requería mucho tiempo y recursos. BlackThorn necesitaba una solución de almacenamiento de archivos compartidos con uso intensivo de computación para ayudar a simplificar sus flujos de trabajo de ciencia de datos y machine learning.

    Solución: Amazon FSx para Lustre está integrado con Amazon S3 y Amazon SageMaker, lo que proporciona un procesamiento rápido de sus conjuntos de datos de entrenamiento de ML y un acceso sin problemas a la computación mediante instancias de Amazon EC2.

    FSx para Lustre nos ha permitido crear una canalización de procesamiento de datos de IRM de alto rendimiento. El tiempo de procesamiento de datos de nuestros flujos de trabajo basados en ML se redujo a minutos en comparación con los días y semanas de antes.

    Oscar Rodriguez, director sénior de Innovación y Tecnología de BlackThorn Therapeutics
  • Qubole

    Qubole mejora la durabilidad de los datos y, al mismo tiempo, reduce los costos con Amazon FSx para Lustre.

    Desafío: Qubole buscaba una solución de almacenamiento de alto rendimiento para procesar cargas de trabajo analíticas y de inteligencia artificial o machine learning para sus clientes. Necesitaban almacenar y procesar fácilmente los datos intermedios contenidos en su flota de spot de EC2.

    Solución: Qubole usó Amazon FSx para Lustre a fin de almacenar y procesar datos intermedios a través de su sistema de archivos paralelo de alta velocidad.

    Los dos mayores problemas de nuestros usuarios, los altos costos y la pérdida intermedia de datos, se derivaron del uso de instancias de EC2 y de instancias de spot de EC2 para procesar y almacenar datos intermedios generados por marcos de procesamiento distribuido como Hive y Spark. Pudimos solucionar este problema con Amazon FSx para Lustre, un sistema de archivos de alto rendimiento, a fin de descargar datos intermedios. Ahora, nuestros usuarios no tienen que pagar para mantener las instancias inactivas y no se ven afectados por la interrupción de los nodos de spot de EC2. Amazon FSx ayudó a nuestros usuarios a reducir los costos totales en un 30 %.

    Joydeep Sen Sarma, director de tecnología, Qubole