Mise en route avec Amazon EMR

Comment utiliser EMR

1

Développement de votre application de traitement de données

Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR propose des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.

2

Chargement de votre application et de vos données dans Amazon S3

Si vous devez charger un volume important de données, il peut être judicieux d’utiliser AWS Import/Export Snowball pour charger des données à l’aide de périphériques de stockage physiques ou AWS Direct Connect pour établir une connexion réseau dédiée de votre centre de données vers AWS. Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.

3

Configuration et lancement votre cluster

En utilisant la console de gestion AWS, l’AWS CLI, les kits SDK ou les API, indiquez le nombre d’instances Amazon EC2 à allouer dans votre cluster, les types d’instances à utiliser (standard, mémoire élevée, CPU élevé, E/S élevées, etc.), les applications à installer (Apache Spark, Apache Hive, Apache HBase, Presto, etc.), ainsi que l’emplacement de votre application et de vos données. Vous pouvez utiliser les actions d’amorçage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.

4

Surveillance du cluster

Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR s’intègre à Amazon CloudWatch pour la surveillance/les alarmes, et prend en charge les outils de surveillance courants tels que Ganglia. Vous pouvez augmenter ou diminuer la capacité du cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l’interface graphique de débogage simple de la console.

5

Récupération de la sortie

Récupérez la sortie d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels qu’Amazon QuickSight, Tableau et MicroStrategy. Amazon EMR arrête automatiquement le cluster une fois le traitement terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.

Prêt à lancer votre premier cluster ?

Cliquez ici pour lancer un cluster à l’aide de la console de gestion Amazon EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » situé en haut à droite si vous souhaitez exécuter un exemple d'application avec des exemples de données.

Formation et aide

Avez-vous besoin d'aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR. N'hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (deux à six semaines).

La formation big data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions Amazon Web Services pour des charges de travail de big data. Vous découvrirez comment exécuter des tâches Amazon EMR afin de traiter des données grâce au vaste écosystème d'outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de Big Data dans le cloud en utilisant Amazon DynamoDB et Amazon Redshift, à tirer parti d'Amazon Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de Big Data sécurisés, économiques et offrant d'excellentes performances d'analyse. Pour en savoir plus sur la formation big data, cliquez ici.

La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d'autres technologies Big Data. Pour en savoir plus, cliquez ici.