Muchos clientes de Amazon Web Services (AWS) requieren una solución de almacenamiento y análisis de datos que sea más ágil y flexible que los sistemas tradicionales de administración de datos. Un data lake es una modalidad nueva y cada vez más popular de almacenar y analizar datos porque permite a las empresas administrar múltiples tipos de datos de una amplia variedad de fuentes, y almacenar estos datos, estructurados y no estructurados, en un repositorio centralizado.
La nube de AWS proporciona muchos de los componentes esenciales necesarios para ayudar a los clientes a implementar un data lake seguro, flexible y rentable. Entre estos, se encuentra AWS Managed Services que permite incorporar, almacenar, buscar, procesar y analizar datos tanto estructurados como no estructurados. Con el objetivo de ayudar a los clientes durante el proceso de creación de un lago de datos, AWS ofrece Lago de datos en AWS, una implementación de referencia automatizada que implementa una arquitectura de lago de datos rentable y de alta disponibilidad en la nube de AWS junto con una consola de fácil uso para buscar y solicitar conjuntos de datos.
Información general
Lago de datos en AWS configura automáticamente los servicios fundamentales de AWS necesarios para etiquetar, buscar, compartir, transformar, analizar y administrar fácilmente subconjuntos específicos de datos en toda una empresa o con otros usuarios externos. La orientación implementa una consola a la cual los usuarios pueden acceder para buscar y encontrar conjuntos de datos disponibles para sus necesidades empresariales. También incluye una plantilla federada que permite lanzar una versión de la solución que está lista para integrarse con Microsoft Active Directory.
El siguiente diagrama presenta la arquitectura de lago de datos que puede crear mediante el código de ejemplo en GitHub.
Lago de datos en arquitectura de AWS
El código configura un conjunto de microservicios (funciones) de AWS Lambda, Amazon OpenSearch Service para una capacidad de búsqueda robusta, Amazon Cognito para la autenticación de usuarios, AWS Glue para la transformación de datos y Amazon Athena para el análisis.
El lago de datos en AWS aprovecha la seguridad, la durabilidad y la escalabilidad de Amazon S3 para administrar un catálogo constante de conjuntos de datos de la organización, y Amazon DynamoDB para administrar los metadatos correspondientes. Una vez catalogado un conjunto de datos, sus atributos y etiquetas descriptivas están disponibles para la búsqueda. Los usuarios pueden buscar y navegar por los conjuntos de datos disponibles en la consola y crear una lista de datos a los que necesitan acceder. La solución da seguimiento a los conjuntos de datos que selecciona un usuario y genera un archivo de manifiesto con enlaces de acceso seguro al contenido deseado cuando el usuario finaliza la sesión.
Recursos adicionales
Características
Flexibilidad de acceso a los datos
Capa de almacenamiento administrado
Inicio de sesión de federación
Interfaz de línea de comandos
Interfaz de usuario
Revise nuestra biblioteca de soluciones de AWS para obtener respuestas a problemas de arquitectura comunes.
Encuentre socios de AWS que lo ayuden a comenzar.
Encuentre diagramas de arquitectura prescriptivos, código de muestra y contenido técnico para casos de uso comunes.