Comment utiliser Amazon EMR
- Développer votre application de traitement de données. Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR fournit des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.
- Télécharger votre application et vos données dans Amazon S3. Si vous devez télécharger un volume important de données, il peut être judicieux d'utiliser AWS Import/Export Snowball pour télécharger des données à l'aide de périphériques de stockage physiques ou AWS Direct Connect pour établir une connexion réseau dédiée de votre centre de données vers AWS. Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.
- Configurez et lancez votre cluster. En utilisant AWS Management Console, l'interface de ligne de commande (CLI) AWS, les kits SDK ou les API, indiquez le nombre d'instances Amazon EC2 à provisionner dans votre cluster, les types d'instances à utiliser (standard, de mémoire élevée, de processeur élevé, d'E/S élevées, etc.), les applications à installer (Apache Spark, Apache Hive, Apache HBase, Presto, etc.), ainsi que l'emplacement de votre application et de vos données. Vous pouvez utiliser les actions d'amorçage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.
- Surveillez le cluster. Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR s'intègre à Amazon CloudWatch pour la surveillance/les alarmes, et prend en charge les outils de surveillance courants tels que Ganglia. Vous pouvez augmenter ou diminuer la capacité du cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l'interface graphique de débogage simple de la console.
- Récupérez la sortie. Récupérez la sortie d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels qu'Amazon QuickSight, Tableau et MicroStrategy. Amazon EMR arrête automatiquement le cluster une fois le traitement terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.
Prêt à lancer votre premier cluster ?
Cliquez ici pour lancer un cluster à l'aide de la console de gestion Amazon EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » (Configurer l'exemple d'application) situé en haut à droite si vous souhaitez exécuter un exemple d'application avec des exemples de données.
Didacticiels
Spark
Traitement des flux en temps réel à l’aide d’Apache Spark Streaming et d’Apache Kafka sur AWS
Cet article explique comment configurer Apache Kafka sur EC2, utiliser Spark Streaming sur EMR pour traiter les données transférées vers les sujets Apache Kafka et interroger des données en streaming à l'aide de Spark SQL sur EMR.
Le machine learning à grande échelle avec Spark sur Amazon EMR
Découvrez comment Intent Media a utilisé Spark et Amazon EMR pour ses flux de travail de modélisation.
HBase
SQL à faible latence et index secondaires avec Phoenix et HBase
Apprenez à vous connecter à Phoenix en utilisant JDBC, à créer une vue sur une table HBase existante, et à créer un index secondaire pour améliorer la performance de lecture
Utiliser HBase avec Hive pour les charges de travail NoSQL et d'analyse
Apprenez à lancer un cluster EMR avec HBase et à restaurer une table à partir d’un instantané dans Amazon S3.
Presto
Lancez un cluster Amazon EMR avec Presto et Airpal
Apprenez à configurer un cluster Presto et à utiliser Airpal pour traiter les données stockées dans S3.
Hive
Utiliser HBase avec Hive pour les charges de travail NoSQL et d'analyse
Apprenez à lancer un cluster EMR avec HBase et à restaurer une table à partir d’un instantané dans Amazon S3.
Traiter et analyser des données Big Data en utilisant Hive sur Amazon EMR et la suite MicroStrategy
Apprenez à vous connecter à un flux de travail Hive exécuté sur Amazon Elastic MapReduce afin de créer une plateforme sécurisée et extensible permettant la génération de rapports et l’analyse.
Flink
Construire un pipeline de traitement des flux en temps réel avec Apache Flink sur AWS
Ce didacticiel présente une architecture de référence pour un pipeline de traitement des flux cohérent, évolutif et fiable basé sur Apache Flink en utilisant Amazon EMR, Amazon Kinesis, et Amazon Elasticsearch Service.
Apprenez à votre rythme grâce aux autres didacticiels.
Formation et aide
Engagements à court terme
Avez-vous besoin d'aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR. N'hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (deux à six semaines).
Formation Big Data AWS
La formation Big Data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions Amazon Web Services pour des charges de travail de Big Data. Vous découvrirez comment exécuter des tâches Amazon EMR afin de traiter des données grâce au vaste écosystème d'outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de Big Data dans le cloud en utilisant Amazon DynamoDB et Amazon Redshift, à tirer parti d'Amazon Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de Big Data sécurisés, économiques et offrant d'excellentes performances d'analyse. Pour en savoir plus sur la formation Big Data, cliquez ici.
Formation supplémentaire
La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d'autres technologies Big Data. Pour en savoir plus, cliquez ici.
Ressources supplémentaires
Créez un exemple de cluster Amazon EMR dans AWS Management Console.
Découvrir davantage de ressources Amazon EMR