Apache Spark sur Amazon EMR
Pourquoi choisir Apache Spark sur EMR ?
Amazon EMR est la meilleure solution pour exécuter Apache Spark. Vous pouvez rapidement et facilement créer des clusters Spark gérés à partir de l'AWS Management Console, de l'interface de ligne de commande AWS ou de l'API Amazon EMR. De plus, vous pouvez profiter de fonctionnalités Amazon EMR supplémentaires, notamment une connectivité Amazon S3 rapide à l’aide d’Amazon EMR File System (EMRFS), une intégration à la place de marché des instances Spot Amazon EC2 et au catalogue de données AWS Glue, et EMR Managed Scaling pour ajouter des instances à votre cluster ou les en supprimer. AWS Lake Formation permet un contrôle d’accès précis, tandis qu’AWS Step Functions vous aide à orchestrer vos pipelines de données. EMR Studio (version préliminaire) est un environnement de développement intégré (IDE) qui permet aux scientifiques des données et aux ingénieurs des données de facilement développer, visualiser et déboguer les applications d’ingénierie et de science des données écrites en R, Python, Scala et PySpark. EMR Studio fournit des blocs-notes Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Les blocs-notes EMR vous permettent d’expérimenter et de développer des applications en toute simplicité avec Spark. Vous avez également la possibilité d’utiliser Apache Zeppelin afin de créer des blocs-notes interactifs et collaboratifs pour l’exploration de données à l’aide de Spark.
Fonctionnalités et avantages
Cas d'utilisation
Réussite client
-
Yelp
L'équipe de ciblage publicitaire de Yelp réalise des modèles de prévision pour déterminer la probabilité qu'un utilisateur interagisse avec une publicité. En utilisant Apache Spark sur Amazon EMR pour traiter de grandes quantités de données afin de former des modèles d'apprentissage machine, Yelp a augmenté son chiffre d'affaires et son taux de clics publicitaires.
-
The Washington Post
Le Washington Post utilise Apache Spark sur Amazon EMR pour créer des modèles optimisant le moteur de recommandation de son site Web pour améliorer l'engagement et la satisfaction des lecteurs. Le journal tire parti de la connectivité performante d'Amazon EMR avec Amazon S3 pour mettre à jour ses modèles en temps quasi réel.
-
Krux
Dans le cadre de sa plate-forme de gestion des données spécialisée dans la recherche d'informations sur les clients, Krux exécute de nombreuses charges de travail de machine learning et de traitement général à l'aide d'Apache Spark. Krux utilise des clusters Amazon EMR éphémères avec sa capacité d'instance Spot Amazon EC2 pour réaliser des économies et utilise Amazon S3 avec le système EMRFS comme couche de données pour Apache Spark.
-
GumGum
GumGum, une plate-forme spécialisée dans les images et écrans publicitaires, utilise Spark sur Amazon EMR pour les prévisions de stocks, le traitement des journaux de parcours de navigation et l'analyse ad hoc de données non structurées dans Amazon S3. Les améliorations de performances obtenues grâce à Spark ont permis à GumGum de gagner du temps et de réaliser des économies dans le cadre de ces processus.
-
Hearst Corporation
Hearst Corporation, une grande société de médias et d'information diversifiée, possède plus de 200 actifs Web proposant de nombreux contenus à ses clients. En utilisant Apache Spark Streaming sur Amazon EMR, la rédaction de Hearst peut suivre en temps réel les articles les plus consultés et les thèmes qui suscitent le plus d'intérêt.
-
CrowdStrike
CrowdStrike assure la protection des Endpoints pour mettre fin aux failles de sécurité. L'entreprise utilise Amazon EMR avec Spark pour traiter des centaines de téraoctets de données d'événements et les déployer dans des descriptions comportementales de niveau supérieur sur les hôtes. A partir de ces informations, CrowdStrike peut rapprocher les données d'événements et identifier la présence d'opérations malveillantes.