Mise en route avec Amazon EMR
Comment utiliser EMR
Développement de votre application de traitement de données
Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR propose des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.
Chargement de votre application et de vos données dans Amazon S3
Si vous devez charger un volume important de données, il peut être judicieux d’utiliser AWS Import/Export Snowball pour charger des données à l’aide de périphériques de stockage physiques ou AWS Direct Connect pour établir une connexion réseau dédiée de votre centre de données vers AWS. Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.
Configuration et lancement votre cluster
En utilisant la console de gestion AWS, l’AWS CLI, les kits SDK ou les API, indiquez le nombre d’instances Amazon EC2 à allouer dans votre cluster, les types d’instances à utiliser (standard, mémoire élevée, CPU élevé, E/S élevées, etc.), les applications à installer (Apache Spark, Apache Hive, Apache HBase, Presto, etc.), ainsi que l’emplacement de votre application et de vos données. Vous pouvez utiliser les actions d’amorçage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.
Surveillance du cluster
Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR s’intègre à Amazon CloudWatch pour la surveillance/les alarmes, et prend en charge les outils de surveillance courants tels que Ganglia. Vous pouvez augmenter ou diminuer la capacité du cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l’interface graphique de débogage simple de la console.
Récupération de la sortie
Récupérez la sortie d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels qu’Amazon QuickSight, Tableau et MicroStrategy. Amazon EMR arrête automatiquement le cluster une fois le traitement terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.
Prêt à lancer votre premier cluster ?
Cliquez ici pour lancer un cluster à l’aide de la console de gestion Amazon EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » situé en haut à droite si vous souhaitez exécuter un exemple d'application avec des exemples de données.