Qu'est-ce que le traitement analytique en ligne ?
Le traitement analytique en ligne (OLAP) est une technologie logicielle que vous pouvez utiliser pour analyser les données commerciales de différents points de vue. Les entreprises collectent et stockent des données provenant de plusieurs sources de données, telles que des sites Web, des applications, des compteurs intelligents et des systèmes internes. OLAP combine et regroupe ces données en catégories afin de fournir des informations exploitables pour la planification stratégique. Par exemple, un détaillant stocke des données sur tous les produits qu'il vend, telles que la couleur, la taille, le coût et l'emplacement. Le détaillant collecte également les données d'achat des clients, telles que le nom des articles commandés et la valeur totale des ventes, dans un système différent. OLAP combine les ensembles de données pour répondre à des questions telles que les produits de couleur les plus populaires ou l'impact du placement de produits sur les ventes.
Pourquoi OLAP est-il important ?
Le traitement analytique en ligne (OLAP) aide les entreprises à traiter et à tirer parti d'une quantité croissante d'informations numériques. Certains avantages de l'OLAP sont les suivants.
Prise de décision plus rapide
Les entreprises utilisent l'OLAP pour prendre des décisions rapides et précises afin de rester compétitives dans une économie en évolution rapide. L'exécution de requêtes analytiques sur plusieurs bases de données relationnelles prend beaucoup de temps, car le système informatique recherche dans plusieurs tables de données. D'autre part, les systèmes d'OLAP calculent au préalable et intègrent les données afin que les analystes métier puissent générer des rapports plus rapidement en cas de besoin.
Support utilisateur non technique
Les systèmes d'OLAP facilitent l'analyse des données complexes pour les utilisateurs professionnels non techniques. Les utilisateurs professionnels peuvent créer des calculs analytiques complexes et générer des rapports au lieu d'apprendre à utiliser des bases de données.
Affichage des données intégré
L'OLAP propose une plateforme unifiée pour le marketing, la finance, la production et d'autres unités opérationnelles. Les gestionnaires et les décideurs peuvent avoir une plus large vue d'ensemble et résoudre efficacement les problèmes. Ils peuvent effectuer une analyse de simulation qui montre l'impact des décisions prises par un département sur d'autres secteurs de l'entreprise.
Qu'est-ce que l'architecture OLAP ?
Les systèmes de traitement analytique en ligne (OLAP) stockent des données multidimensionnelles en représentant les informations dans plus de deux dimensions ou catégories. Les données bidimensionnelles impliquent des colonnes et des lignes, mais les données multidimensionnelles présentent des caractéristiques multiples. Par exemple, les données multidimensionnelles pour les ventes de produits peuvent comprendre les dimensions suivantes :
- Type de produit
- Lieu
- Durée
Les ingénieurs de données créent un système OLAP multidimensionnel composé des éléments suivants.
Entrepôt de données
Un entrepôt des données collecte des informations provenant de différentes sources, notamment des applications, des fichiers et des bases de données. Il traite les informations à l'aide de divers outils afin que les données soient prêtes à être utilisées à des fins analytiques. Par exemple, l'entrepôt des données peut collecter des informations à partir d'une base de données relationnelle qui stocke les données dans des tableaux de lignes et de colonnes.
Outils ETL
Les outils d'extraction, de transformation et de chargement (ETL) sont des processus de base de données qui récupèrent, modifient et préparent automatiquement les données dans un format adapté à des fins analytiques. Les entrepôts des données ont recours au processus ETL pour convertir et normaliser des informations provenant de diverses sources avant de les mettre à la disposition des outils OLAP.
Serveur OLAP
Un serveur OLAP est la machine sous-jacente qui alimente le système OLAP. Il utilise des outils ETL pour transformer les informations des bases de données relationnelles et les préparer aux opérations OLAP.
Base de données OLAP
Une base de données OLAP est une base de données distincte qui se connecte à l'entrepôt des données. Les ingénieurs de données utilisent parfois une base de données OLAP pour éviter que l'entrepôt des données ne soit surchargé par l'analyse OLAP. Ils utilisent également une base de données OLAP pour faciliter la création de modèles de données OLAP.
Cubes OLAP
Un cube de données est un modèle représentant un tableau multidimensionnel d'informations. Bien qu'il soit plus facile de le visualiser en tant que modèle de données tridimensionnel, la plupart des cubes de données ont plus de trois dimensions. Un cube OLAP, ou hypercube, est le terme désignant les cubes de données dans un système OLAP. Les cubes OLAP sont rigides, car vous ne pouvez pas modifier les dimensions et les données sous-jacentes une fois que vous les avez modélisés. Par exemple, si vous ajoutez la dimension d'entrepôt à un cube avec des dimensions de produit, d'emplacement et de temps, vous devez remodeler le cube entier.
Outils d'analytique OLAP
Les analystes métier utilisent les outils OLAP pour interagir avec le cube OLAP. Ils effectuent des opérations telles que le découpage en tranches, le découpage en dés et le pivotement pour obtenir des informations plus détaillées sur des informations spécifiques au sein du cube OLAP.
Comment fonctionne OLAP ?
Comment fonctionne OLAP ?
Un système de traitement analytique en ligne (OLAP) fonctionne en collectant, en organisant, en agrégeant et en analysant les données en procédant comme suit :
- Le serveur OLAP collecte les données de plusieurs sources de données, y compris des bases de données relationnelles et des entrepôts des données.
- Ensuite, les outils d'extraction, de transformation et de chargement (ETL) nettoient, agrègent, précalculent et stockent les données dans un cube OLAP en fonction du nombre de dimensions spécifié.
- Les analystes métier utilisent les outils OLAP pour interroger et générer des rapports à partir des données multidimensionnelles du cube OLAP.
OLAP utilise des expressions multidimensionnelles (MDX) pour interroger le cube OLAP. MDX est une requête, comme SQL, qui fournit un ensemble d'instructions pour manipuler les bases de données.
Quels sont les types d'OLAP ?
Les systèmes de traitement analytique en ligne (OLAP) fonctionnent de trois manières principales.
MOLAP
Le traitement analytique en ligne multidimensionnel (MOLAP) implique la création d'un cube de données qui représente les données multidimensionnelles d'un entrepôt des données. Le système MOLAP stocke les données précalculées dans l'hypercube. Les ingénieurs de données utilisent MOLAP, car ce type de technologie OLAP permet une analyse rapide.
ROLAP
Au lieu d'utiliser un cube de données, le traitement analytique relationnel en ligne (ROLAP) permet aux ingénieurs de données d'effectuer une analyse de données multidimensionnelle sur une base de données relationnelle. En d'autres termes, les ingénieurs de données utilisent des requêtes SQL pour rechercher et récupérer des informations spécifiques en fonction des dimensions requises. ROLAP convient à l'analyse de données complètes et détaillées. Cependant, ROLAP présente des performances de requête lentes par rapport à MOLAP.
HOLAP
Le traitement analytique en ligne hybride (HOLAP) combine MOLAP et ROLAP pour fournir le meilleur des deux architectures. HOLAP permet aux ingénieurs de données de récupérer rapidement les résultats analytiques d'un cube de données et d'extraire des informations détaillées des bases de données relationnelles.
Qu'est-ce que la modélisation des données dans OLAP ?
La modélisation des données est la représentation des données dans des entrepôts des données ou des bases de données de traitement analytique en ligne (OLAP). La modélisation des données est essentielle dans le traitement analytique relationnel en ligne (ROLAP), car elle analyse les données directement à partir de la base de données relationnelle. Elle stocke les données multidimensionnelles sous forme de schéma en étoile ou Snowflake.
Schéma en étoile
Le schéma en étoile se compose d'une table de faits et de plusieurs tables de dimensions. La table de faits est une table de données qui contient des valeurs numériques liées à un processus métier, tandis que la table de dimensions contient des valeurs qui décrivent chaque attribut de la table de faits. La table de faits fait référence à des tables dimensionnelles avec des clés étrangères, c'est-à-dire des identifiants uniques qui sont en corrélation avec les informations respectives de la table de dimensions.
Dans un schéma en étoile, une table de faits se connecte à plusieurs tables de dimensions afin que le modèle de données ressemble à une étoile. Voici un exemple de tableau de faits pour les ventes de produits :
- ID du produit
- ID d'emplacement
- ID du représentant
- Montant des ventes
L'ID du produit indique au système de base de données de récupérer les informations de la table des dimensions du produit, qui peut se présenter comme suit :
- ID du produit
- Nom de produit
- Type de produit
- Coût du produit
De même, l'ID d'emplacement désigne une table de dimensions d'emplacement, qui peut comprendre les éléments suivants :
- ID d'emplacement
- Pays
- Ville
La table du représentant peut se présenter comme suit :
- ID du représentant
- Prénom
- Nom
Schéma Snowflake
Le schéma Snowflake est une extension du schéma en étoile. Certaines tables de dimensions peuvent mener à une ou plusieurs tables de dimensions secondaires. Il en résulte une forme semblable à celle d'un flocon de neige lorsque les tables de dimensions sont assemblées.
Par exemple, la table des dimensions du produit peut contenir les champs suivants :
- ID du produit
- Nom de produit
- ID du type de produit
- Coût du produit
L'ID du type de produit est en lien avec une autre table de dimensions, comme illustré dans l'exemple suivant :
- ID du type de produit
- Nom du type
- Version
- Variante
En quoi consistent les opérations OLAP ?
Les analystes métier effectuent plusieurs opérations analytiques de base à l'aide d'un cube de traitement analytique en ligne multidimensionnel (MOLAP).
Cumul
Avec le cumul, le système de traitement analytique en ligne (OLAP) résume les données pour des attributs spécifiques. En d'autres termes, il présente des données moins détaillées. Par exemple, vous pouvez afficher les ventes de produits pour New York, la Californie, Londres et Tokyo. Une opération de cumul fournirait une vue des données de vente basées sur des pays tels que les États-Unis, le Royaume-Uni et le Japon.
Explorer vers le bas
L'exploration vers le bas est le contraire de l'opération de cumul. Les analystes métier descendent dans la hiérarchie des concepts et extraient les détails dont ils ont besoin. Par exemple, ils peuvent passer de la visualisation des données de vente par année à une visualisation mensuelle.
Tranche
Les ingénieurs de données utilisent l'opération de découpage en tranches pour créer une vue bidimensionnelle à partir du cube OLAP. Par exemple, un cube MOLAP trie les données en fonction des produits, des villes et des mois. En découpant le cube en tranches, les ingénieurs de données peuvent créer un tableau de type feuille de calcul composé de produits et de villes pour un mois spécifique.
Dés
Les ingénieurs de données utilisent l'opération de découpage en dés pour créer un sous-cube plus petit à partir d'un cube OLAP. Ils déterminent les dimensions requises et créent un cube plus petit à partir de l'hypercube d'origine.
Pivotement
L'opération de pivotement implique la rotation du cube OLAP le long de l'une de ses dimensions pour obtenir une perspective différente sur le modèle de données multidimensionnel. Par exemple, un cube OLAP tridimensionnel a les dimensions suivantes sur les axes respectifs :
- Axe X : produit
- Axe Y : emplacement
- Axe Z : temps
Lors d'un pivotement, le cube OLAP présente la configuration suivante :
- Axe X : emplacement
- Axe Y : temps
- Axe Z : produit
Comment OLAP se compare-t-il aux autres méthodes d'analytique des données ?
Exploration de données
L'exploration de données est une technologie d'analytique qui traite de grands volumes de données historiques pour trouver des modèles et des informations. Les analystes métier utilisent des outils d'exploration de données pour découvrir les relations entre les données et faire des prévisions précises des tendances futures.
OLAP et exploration de données
Le traitement analytique en ligne (OLAP) est une technologie d'analyse de base de données qui implique l'interrogation, l'extraction et l'étude de données résumées. D'autre part, l'exploration de données implique d'examiner en profondeur les informations non traitées. Par exemple, les spécialistes du marketing peuvent utiliser des outils d'exploration de données pour analyser le comportement des utilisateurs à partir des enregistrements de chaque visite du site web. Ils peuvent ensuite utiliser le logiciel OLAP pour inspecter ces comportements sous différents angles, tels que la durée, l'appareil, le pays, la langue et le type de navigateur.
OLTP
Le traitement des transactions en ligne (OLTP) est une technologie de données qui stocke les informations rapidement et de manière fiable dans une base de données. Les ingénieurs de données utilisent les outils OLTP pour stocker les données transactionnelles, telles que les dossiers financiers, les abonnements aux services et les commentaires des clients, dans une base de données relationnelle. Les systèmes OLTP impliquent la création, la mise à jour et la suppression d'enregistrements dans des tables relationnelles.
OLAP et OLTP
L'OLTP est idéal pour gérer et stocker plusieurs flux de transactions dans des bases de données. Il ne peut toutefois pas effectuer de requêtes complexes à partir de la base de données. Par conséquent, les analystes métier utilisent un système OLAP pour analyser les données multidimensionnelles. Par exemple, les scientifiques des données connectent une base de données OLTP à un cube OLAP basé sur le cloud pour effectuer des requêtes gourmandes en calcul sur des données historiques.
Comment AWS peut-il être utile en ce qui concerne l'OLAP ?
Les bases de données AWS fournissent diverses bases de données cloud gérées pour aider les organisations à stocker et à effectuer des opérations de traitement analytique en ligne (OLAP). Les analystes de données utilisent les bases de données AWS pour créer des bases de données sécurisées qui correspondent aux exigences de leur organisation. Les entreprises migrent leurs données métier vers les bases de données AWS en raison de leur prix abordable et de leur capacité de mise à l'échelle.
- Amazon Redshift est un entrepôt des données cloud spécialement conçu pour le traitement analytique en ligne.
- Amazon Relational Database Service (Amazon RDS) est une base de données relationnelle dotée de la fonctionnalité OLAP. Les ingénieurs de données utilisent Amazon RDS avec Oracle OLAP pour effectuer des requêtes complexes sur des cubes dimensionnels.
- Amazon Aurora est une base de données relationnelle cloud compatible MySQL et PostgreSQL. Elle est optimisée pour l'exécution de charges de travail OLAP complexes.
Commencez à utiliser l'OLAP sur AWS en créant un compte AWS dès aujourd'hui.
Le traitement analytique en ligne : prochaines étapes
Commencez à créer avec AWS dans la Console de gestion AWS.