¿Qué es un data mart?
Un data mart es un sistema de almacenamiento de datos que contiene información específica de la unidad de negocio de una organización. Contiene una parte pequeña y específica de los datos que la empresa almacena en un sistema de almacenamiento más grande. Las empresas utilizan un data mart para analizar la información específica de cada departamento de manera más eficiente. Brinda datos resumidos que las partes interesadas clave pueden utilizar para tomar decisiones informadas rápidamente.
Por ejemplo, una empresa puede almacenar datos de varias fuentes, como información de proveedores, pedidos, datos de sensores, información de empleados y registros financieros en su almacenamiento de datos o lago de datos. Sin embargo, la empresa almacena información relevante, por ejemplo, para el Departamento de Marketing, como reseñas de redes sociales y registros de clientes, en un data mart.
¿Cómo se compara un data mart con otros tipos de sistemas de almacenamiento de datos?
Las empresas utilizan varios tipos diferentes de sistemas de almacenamiento de datos para la administración y el análisis de datos. Echemos un vistazo a algunos tipos de almacenamiento de datos comunes para comprender el contexto en el que las empresas utilizan los data marts.
Base de datos
Una base de datos es un almacenamiento organizado que los sistemas de computación utilizan para guardar, buscar, recuperar y analizar información. Hay varios tipos de bases de datos, como las bases de datos relacionales. Una base de datos relacional almacena información en tablas que constan de filas y columnas. Los datos de diferentes tablas están conectados por un identificador único conocido como clave. Las claves son los valores no repetitivos de columnas específicas.
Diferencias entre un data mart y una base de datos
Un data mart sirve como elemento frontal para los datos de un departamento. Puede utilizar un data mart para recuperar y analizar información. Mientras tanto, una base de datos recopila, administra y almacena información. Con esto, podrá utilizar herramientas para procesar, formatear y transferir la información almacenada a un data mart.
Almacenamiento de datos
Un almacenamiento de datos es un sistema de base de datos extenso que almacena información de toda una empresa. Recopila información sin procesar de varias fuentes, como software empresarial y fuentes de redes sociales, y la procesa en datos estructurados almacenados en formato tabular. Las empresas pueden conectar un almacenamiento de datos empresarial a las herramientas de inteligencia empresarial para tomar decisiones más inteligentes.
Diferencias entre un almacenamiento de datos y un data mart
Un data mart comparte muchas de las cualidades de un almacenamiento de datos. La diferencia que hay entre ellos es que un almacenamiento de datos contiene datos de toda la empresa sobre diversos temas. Mientras tanto, un data mart almacena información estrechamente relacionada con un tema específico. Por ejemplo, el almacenamiento de datos puede guardar información para los Departamentos de Marketing, Recursos Humanos, Adquisiciones y Asistencia al Cliente. Sin embargo, un data mart puede almacenar únicamente datos transaccionales relevantes para un solo departamento. El atractivo de crear un data mart es que los departamentos que administran sus data marts tienen un control total sobre la carga y administración de sus datos.
Muchas organizaciones utilizan tecnologías como el uso compartido de datos para publicar sus data marts en un almacenamiento de datos central. Al hacerlo, pueden ser más ágiles gracias a la distribución de la propiedad y el aislamiento de las cargas de trabajo. Del mismo modo, este uso compartido de datos permite a los data marts departamentales consumir datos compartidos desde un almacenamiento de datos u otros data marts.
Lago de datos
Un lago de datos es un almacenamiento de datos que contiene información sin procesar y no estructurada. No almacena información en archivos ni carpetas. En cambio, almacena la información no procesada en una jerarquía plana en almacenamiento masivo. Los lagos de datos almacenan diferentes tipos de información sin procesar, incluidos documentos de texto, imágenes, vídeos y audio.
Los analistas de datos utilizan los lagos de datos para realizar análisis predictivos a partir de datos no estructurados. Por ejemplo, un lago de datos puede almacenar textos de reseñas de redes sociales que las empresas pueden utilizar para el análisis de opiniones. Los analistas de datos pueden utilizar el análisis de opiniones a fin de detectar tendencias de opinión negativas para una empresa.
Diferencias entre un data mart y un lago de datos
Debido a que los lagos de datos almacenan datos sin procesar, parte de la información puede estar duplicada o no ser importante para la empresa. Mientras tanto, un data mart almacena datos procesados que satisfacen una necesidad específica. Un lago de datos podría ser la fuente de un data mart. Las empresas determinan las tendencias de los datos por medio de análisis de los datos históricos en los data marts, pero utilizan los lagos de datos para analizar la información almacenada meticulosamente.
OLAP
El procesamiento analítico en línea (OLAP) es un método para representar datos en varias dimensiones. Por ejemplo, los analistas de datos utilizan un cubo OLAP para mostrar simultáneamente los ingresos por ventas en función de meses, ciudades y productos. Las estructuras de datos OLAP son amplias, tienen campos clasificados como hechos o dimensiones y dan lugar a la duplicación de datos. Esto contrasta con las bases de datos relacionales convencionales, que favorecen estructuras estrechas y la escasez en la duplicación de datos.
Diferencias entre data mart y cubo OLAP
OLAP es una estrategia específica de almacenamiento de información que desnormaliza los datos en tablas amplias. OLAP simplifica las representaciones complejas de datos multidimensionales. Algunos data marts pueden usar OLAP para estructurar su información, pero otros utilizan estructuras normalizadas convencionales. Los analistas de negocios aprovechan las estructuras OLAP para visualizar la información de un data mart.
Almacén de datos operacionales
Un almacén de datos operacionales (ODS) es un almacenamiento de información que actúa como intermediario entre los orígenes de datos y el almacenamiento de datos. Los analistas de datos utilizan el ODS para proporcionar informes casi en tiempo real sobre los datos transaccionales. El ODS admite consultas simples y proporciona únicamente una cantidad limitada de información. Por ejemplo, el ODS puede almacenar registros de ventas únicamente de las últimas 12 horas.
Diferencias entre data mart y ODS
Un data mart extrae información orientada al sujeto de un almacenamiento de datos, pero un ODS envía información al almacenamiento de datos para su procesamiento. Los data marts ofrecen información histórica que se puede analizar, pero un ODS proporciona una vista actualizada de las operaciones actuales. Por ejemplo, puede utilizar un data mart para identificar patrones de ventas del último trimestre, pero con el ODS recibirá actualizaciones de las cifras de ventas por hora.
¿Cuál es la importancia de un data mart?
Estas son algunas buenas razones por las que las empresas podrían utilizar un data mart.
Recuperar datos de manera más eficiente
Al utilizar un data mart, las empresas pueden acceder a información específica de manera más eficiente. En comparación con un almacenamiento de datos, un data mart contiene información relevante y detallada a la que un departamento accede con frecuencia. Por lo tanto, los gerentes de negocios no necesitan buscar en todo el almacenamiento de datos para generar informes de rendimiento o gráficos.
Optimizar la toma de decisiones
Las empresas pueden crear un subconjunto de datos a partir de un almacenamiento de datos con un data mart. Los empleados del departamento pueden analizar los datos y tomar decisiones en función del mismo conjunto de información.
Controlar la información de manera más eficaz
Un data mart brinda a los empleados privilegios de acceso altamente granulares. Esto significa que la empresa puede autorizar a cierta persona a ver o recuperar datos específicos. Ayuda a las empresas a mejorar la gobernanza de datos y a aplicar políticas de acceso a la información. Por ejemplo, puede utilizar los data marts para proporcionar a los empleados acceso de los usuarios para obtener información específica en un almacenamiento de datos.
Gestionar los datos con flexibilidad
Un data mart es más pequeño y contiene menos tablas que un almacenamiento de datos. Esto significa que los ingenieros de datos pueden administrar y cambiar la información en un data mart sin provocar cambios importantes en la base de datos.
¿Cómo funciona un data mart?
Un data mart convierte la información sin procesar en contenido estructurado y significativo para un departamento empresarial específico. Para ello, los ingenieros de datos configuraron un data mart para recibir información de un almacenamiento de datos o directamente de orígenes de datos externos.
Cuando se conecta a un almacenamiento de datos, el data mart recupera cierta información que es relevante para una unidad de negocio. A menudo, la información contiene datos resumidos y excluye datos innecesarios o detallados.
ETL
La extracción, transformación y carga (ETL) es un proceso que integra y transfiere información de varios orígenes de datos a una sola base de datos física. Los data marts utilizan la ETL para recuperar información de fuentes externas cuando esta no proviene de un almacenamiento de datos. El proceso implica los siguientes pasos.
- Extracción: se recopila información sin procesar de varias fuentes
- Transformación: se estructura la información en un formato común
- Carga: se transfieren los datos procesados a la base de datos
Las herramientas de ETL copian información de fuentes externas, como hojas de cálculo, aplicaciones y documentos de texto. Luego, el data mart procesa, organiza y almacena la información de forma estructurada.
Análisis
Los analistas de negocios utilizan herramientas de software para recuperar, analizar y representar datos del data mart. Por ejemplo, utilizan la información almacenada en los data marts para análisis de inteligencia empresarial, paneles de informes y aplicaciones en la nube.
Cada data mart sirve a un número reducido de usuarios. Por ejemplo, el gerente de marketing y los especialistas sénior en marketing tienen acceso a un data mart, por lo que se tarda menos tiempo en generar informes y gráficos o en realizar análisis predictivos.
¿Cuáles son los tipos de data mart?
Estos son los diferentes tipos de data marts.
Data mart dependiente
Un data mart dependiente llena su almacenamiento con un subconjunto de información de un almacenamiento de datos centralizado. El almacenamiento de datos recopila toda la información de los orígenes de datos. A continuación, el data mart consulta y recupera información específica del sujeto del almacenamiento de datos.
Ventajas y desventajas
La mayoría de los trabajos de gestión y administración de datos se realizan en el almacenamiento de datos. Esto significa que los analistas de negocios no necesitan estar altamente capacitados en la administración de bases de datos para usar la información del data mart. Si bien los data marts dependientes facilitan mucho la recuperación de información, presentan un único punto de falla. Si el almacenamiento de datos falla, todos los data marts conectados también fallarán.
Data mart independiente
Un data mart independiente no depende de un almacenamiento de datos central ni de ningún otro data mart. Cada data mart recopila información de sus fuentes en lugar de hacerlo de un almacenamiento de datos. Los data marts independientes son adecuados para las empresas más pequeñas, pero solo los departamentos en específico deben acceder a la información y analizarla.
Ventajas y desventajas
Las empresas pueden configurar data marts independientes con relativa facilidad. Sin embargo, administrarlos puede resultar difícil. Esto se debe a que los analistas de negocios deben realizar tareas administrativas de bases de datos en cada data mart. Es sencillo compartir datos entre diferentes data marts por medio de estrategias como el uso compartido de datos. Los departamentos pueden leer los datos de otro departamento e incluso aumentarlos con sus propios datos. Sin embargo, se debe implementar una estrategia sólida de catalogación de datos para garantizar que cada departamento sepa lo que está buscando.
Data mart híbrido
Los data marts híbridos recopilan información de un almacenamiento de datos y de fuentes externas. Esto le brinda a las empresas la flexibilidad de probar orígenes de datos independientes antes de dirigir los datos al almacenamiento de datos.
Por ejemplo, supongamos que lanza un nuevo producto y desea analizar sus datos de ventas iniciales. El data mart utiliza la información de ventas que proviene directamente del software de comercio electrónico y recupera los registros de ventas de otros productos del data mart. Una vez que el producto se convierte en un elemento permanente de su tienda, podrá canalizar los detalles de la transacción al almacenamiento de datos.
¿Cuáles son las estructuras de un data mart?
Los data marts utilizan estas estructuras para almacenar y representar información.
Estrella
La estructura de estrella tiene una tabla de datos en su centro y se ramifica a varias tablas de dimensiones. Esto da como resultado una conexión en forma de estrella. La tabla de datos es aquella que contiene datos resumidos que se pueden utilizar con fines analíticos. Mientras tanto, las tablas de dimensiones contienen información descriptiva en una tabla de datos. Cada tabla de dimensiones se vincula a la tabla de datos con una clave externa. Una clave externa es un identificador único, como un ID de producto o de proveedor.
Por ejemplo, una tabla de datos para transacciones de ventas tiene las siguientes columnas:
- ID de venta
- ID de producto
- ID de proveedor
- Cantidad de ventas
Una tabla de dimensiones para productos almacena la siguiente información:
- ID de producto
- Nombre del producto
- Costo del producto
La tabla de dimensiones del proveedor tiene las siguientes columnas:
- ID de proveedor
- Nombre del proveedor
- Ciudad
Beneficios
En una estructura de estrella, la tabla de dimensiones se desnormaliza para no extenderse a tablas adicionales. Esto significa que la tabla de dimensiones puede contener datos redundantes, pero mejora la velocidad de búsqueda y recuperación. También ocupa menos espacio para almacenar tablas de dimensiones.
Los analistas empresariales pueden usar un data mart con estructura de estrella para simplificar las consultas complejas. Cuando buscan un registro de ventas específico, el sistema de administración de datos busca en la tabla de datos. Cuando el sistema del data mart encuentra el registro correcto, utiliza el ID del producto y el ID del proveedor para consultar los datos de las respectivas tablas de dimensiones.
Desnormalizado
Una estructura desnormalizada almacena todos los datos relacionados en una sola tabla. No tiene uniones complejas entre las tablas de datos y las tablas de dimensiones. Los analistas de datos utilizan un data mart desnormalizado porque mejora la velocidad de las consultas. Por ejemplo, la búsqueda de un registro de ventas se lleva a cabo en una sola tabla desnormalizada de la siguiente manera:
- ID de venta
- Producto
- Nombre del producto
- Costo del producto
- Nombre de modelo
- Peso
- Tamaño
- Proveedor
- Nombre del proveedor
- Ciudad
- Cantidad de ventas
Un data mart desnormalizado es adecuado para la generación de informes en tiempo real debido a su enfoque de tabla única. Sin embargo, la desnormalización del data mart lleva a la redundancia de datos. Por ejemplo, el mismo nombre de producto puede aparecer en varios registros. Esto genera espacio de almacenamiento adicional y costos de implementación altos.
¿Cuáles son los pasos para implementar un data mart?
Los ingenieros de datos en la nube configuran un data mart de la siguiente manera:
- Lanzan su plataforma de datos nativa en la nube.
- Rellenan el data mart con datos empresariales. Garantizan que los datos tengan el formato correcto y sean relevantes para los usuarios empresariales.
- Configuran el data mart para que varios usuarios puedan acceder a sus datos. Por ejemplo, instalan un panel de informes en el data mart.
- Proceden a supervisar, optimizar y solucionar los problemas cuando se ejecuta el data mart.
¿Cómo se puede implementar un data mart en AWS?
Las empresas necesitan procesar volúmenes de datos cada vez mayores que amplíen el almacenamiento de data mart convencional hasta el límite. Los data marts que se instalan en servidores locales son difíciles de escalar. La arquitectura de nube ofrece una integración empresarial más barata, escalable y administrable para los data marts.
Amazon Redshift es una solución de almacenamiento de datos que puede utilizar para implementar data marts en la nube. Puede obtener información integrada mediante la ejecución de análisis predictivos y en tiempo real sobre datos complejos y escalados en sus bases de datos operacionales, lagos de datos, almacenamiento de datos y miles de conjuntos de datos de terceros. Puede crear, entrenar e implementar automáticamente modelos de machine learning (ML) con facilidad. Puede crear data marts en Amazon Redshift y utilizarlos para tomar decisiones de forma más inteligente.
Amazon Redshift tiene algunas características clave que lo convierten en una excelente solución para su data mart:
- Con Amazon Redshift sin servidor, el usuario gestiona las consideraciones sobre el tamaño y la escala del clúster.
- Gracias al uso compartido de datos nativo, los datos de su data mart pueden acceder a los datos de su almacenamiento de datos o pueden compartirse con su almacenamiento de datos.
Cree una cuenta de AWS hoy mismo y comience a utilizar data marts.
Siguientes pasos de los data marts en AWS
Obtenga acceso inmediato al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.