Qu'est-ce qu'Hadoop ?

Apache Hadoop est un framework open source permettant de stocker et de traiter efficacement de grands ensembles de données allant de l'ordre du gigaoctect à celui du pétaoctet. Au lieu d'utiliser un vaste système informatique pour stocker et traiter les données, Hadoop permet de regrouper des machines en clusters pour analyser plus rapidement des ensembles de données volumineux en parallèle.

Quels sont les quatre principaux modules de Hadoop ?

Hadoop se compose de quatre modules principaux :

  • Système de fichiers distribué Hadoop (HDFS) : système de fichiers distribué qui fonctionne sur du matériel standard ou bas de gamme. Le HDFS offre un meilleur débit de données que les systèmes de fichiers traditionnels, en plus d'une tolérance élevée aux pannes et d'une prise en charge native de grands jeux de données.
  • Yet Another Resource Negotiator (YARN) – Gère et surveille les nœuds du cluster et l'utilisation des ressources. Il planifie les activités et les tâches.
  • MapReduce – Un framework qui aide les programmes à effectuer des calculs parallèles sur des données. La tâche cartographique prend les données d'entrée et les convertit en un jeu de données qui peut être calculé par paires clé-valeur. Le résultat de la tâche cartographique est utilisé par les tâches reduce afin d'agréger le résultat et de fournir le résultat souhaité.
  • Hadoop Common – Fournit des bibliothèques Java communes qui peuvent être utilisées dans tous les modules.

Comment fonctionne Hadoop ?

Hadoop facilite l'utilisation de toutes les capacités de stockage et de traitement des serveurs en cluster et l'exécution de processus distribués sur d'énormes quantités de données. Hadoop fournit les blocs de base sur lesquels d'autres services et applications peuvent être créés.

Les applications qui collectent des données dans différents formats peuvent placer des données dans le cluster Hadoop à l'aide d'une opération d'API pour se connecter au NameNode. Le NameNode suit la structure du répertoire de fichiers et le placement des « morceaux » pour chaque fichier, répliqués sur les DataNodes. Pour exécuter une tâche visant à interroger les données, fournissez une tâche MapReduce composée de nombreuses tâches map et reduce qui s'exécutent sur les données dans HDFS réparties sur les DataNodes. Mappez les tâches exécutées sur chaque nœud par rapport aux fichiers d'entrée fournis, et des réducteurs s'exécutent pour agréger et organiser le résultat final.

Comment a évolué l'écosystème Hadoop ?

L'écosystème Hadoop s'est considérablement développé au fil des ans en raison de son extensibilité. Aujourd'hui, l'écosystème Hadoop comprend de nombreux outils et applications qui permettent de collecter, stocker, traiter, analyser et gérer le Big Data. Parmi les applications les plus populaires, on trouve notamment :

  • Spark – un système de traitement open source distribué, couramment utilisé pour les charges de travail de Big Data. Apache Spark utilise une mise en mémoire cache et une exécution optimisée pour offrir des performances élevées, et prend en charge le traitement par lot général, les analyses en continu, le machine learning, les bases de données orientées graphe et les requêtes ad hoc.
  • Presto – Un moteur de requêtes SQL distribué open source optimisé pour l'analyse ad hoc des données avec un faible temps de latence. Il prend en charge la norme ANSI SQL, y compris les requêtes complexes, les agrégations, les jonctions et les fonctions de fenêtres. Presto peut traiter des données provenant de plusieurs sources, notamment le système de fichiers distribués Hadoop (HDFS, Hadoop Distributed File System) et Amazon S3.
  • Hive – Permet aux utilisateurs d'exploiter Hadoop MapReduce à l'aide d'une interface SQL, ce qui permet d'analyser à très grande échelle, des entrepôts de données distribués et tolérants aux pannes.
  • HBase – Base de données open source, non relationnelle et versionnée qui s'exécute sur Amazon S3 (à l'aide d'EMRFS) ou du système de fichiers distribué Hadoop (HDFS). HBase est un magasin de Big Data distribué et extrêmement évolutif, conçu pour un accès aléatoire, strictement cohérent et en temps réel à des tables contenant des milliards de lignes et des millions de colonnes.
  • Zeppelin – Un bloc-notes interactif qui permet l'exploration interactive des données.

Comment AWS peut-il prendre en charge vos besoins Hadoop?

Amazon EMR est un service géré qui vous permet de traiter et d'analyser des jeux de données volumineux avec les dernières versions des infrastructures de traitement de frameworks Big Data telles que Apache Hadoop, Spark, HBase et Presto sur la base de clusters entièrement personnalisables.

  • Facilité d'utilisation: Il suffit de quelques minutes pour lancer le cluster Amazon EMR. Vous n'avez pas à vous préoccuper de la mise en service des nœuds, ni de la mise en place et du réglage du cluster, ni de la configuration d'Hadoop.
  • Faible coût : la tarification Amazon EMR est simple et prévisible : vous payez un tarif horaire pour chaque heure d'utilisation d'une instance et vous pouvez tirer parti des instances Spot pour réaliser de plus grandes économies.
  • Flexibilité: Avec Amazon EMR, vous pouvez mettre en service une, des centaines, voire des milliers, d'instances de calcul afin de traiter vos données à n'importe quelle échelle.
  • Transient : vous pouvez utiliser EMRFS pour exécuter des clusters à la demande sur la base de données HDFS stockées de manière persistante dans Amazon S3. Une fois les tâches terminées, vous pouvez arrêter un cluster et enregistrer les données dans Amazon S3. Vous ne payez que pour le temps de calcul pendant lequel le cluster est en cours d'exécution.
  • Sécurisé : Amazon EMR utilise toutes les caractéristiques de sécurité courantes des services AWS :
    • Rôles et stratégies de gestion des identités et des accès (IAM) pour gérer les autorisations.
    • Chiffrement en transit et au repos pour vous aider à protéger vos données et à respecter les normes de conformité, telles que la loi HIPAA.
    • Des groupes de sécurité pour contrôler le trafic réseau entrant et sortant vers les nœuds de votre cluster.
    • AWS CloudTrail : auditez tous les appels Amazon EMR PI effectués sur votre compte afin de fournir une analyse de sécurité, un suivi des modifications des ressources et un audit de conformité.

Commencez à utiliser Hadoop sur AWS en créant un compte dès aujourd'hui.

Prochaines étapes sur AWS

Consultez d'autres ressources liées aux produits
Voir les offres gratuites pour les services d’analyse dans le cloud 
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter