Apache Spark в Amazon EMR
Преимущества Apache Spark для EMR
Сервис Amazon EMR идеально подходит для запуска Apache Spark. Вы можете быстро и просто создавать управляемые кластеры Spark с помощью консоли управления AWS, интерфейса командной строки или API сервиса Amazon EMR. Кроме того, можно использовать дополнительные функции Amazon EMR, в том числе быстрое подключение к Amazon S3 с помощью файловой системы Amazon EMR (EMRFS), интеграцию с магазином спотовых инстансов Amazon EC2 и Каталогом данных AWS Glue, а также сервис управляемого масштабирования EMR для добавления или удаления инстансов из кластера. Сервис AWS Lake Formation обеспечивает точное управление доступом, а интеграция с AWS Step Functions помогает оркестрировать конвейеры данных. Студия EMR (предварительная версия) – это интегрированная среда разработки (IDE), которая позволяет специалистам по работе с данными и инженерам по обработке данных упрощать процесс разработки, визуализации и отладки приложений для обработки или анализа данных, написанных на R, Python, Scala и PySpark. EMR Studio включает в себя полностью управляемые блокноты Jupyter и такие инструменты, как ИП Spark и сервис YARN Timeline, для упрощения отладки. Блокноты EMR упрощают проведение экспериментов и создание приложений с помощью Spark. При желании можно использовать Apache Zeppelin, чтобы создавать интерактивные блокноты с возможностью совместного использования для просмотра данных с помощью Spark.
Функции и преимущества
Примеры использования
Истории успеха клиентов
-
Yelp
Группа по целевой рекламе компании Yelp создает прогнозирующие модели для определения вероятности реакции пользователя на рекламное сообщение. Используя систему Apache Spark в Amazon EMR для обработки больших объемов данных и тренировки моделей машинного обучения, специалисты Yelp повысили прибыль и процент переходов по рекламным ссылкам.
-
The Washington Post
The Washington Post использует Apache Spark в Amazon EMR для построения на сайте газеты моделей работы рекомендательных систем, призванных повысить степень вовлеченности и удовлетворенности читателей. Компания использует скоростное соединение между сервисами Amazon EMR и Amazon S3 для обновления моделей в режиме, близком к реальному времени.
-
Krux
С помощью системы Apache Spark компания Krux задействует множество процессов машинного обучения и общей обработки данных в составе своей платформы управления данными для анализа потребностей клиентов. Для снижения затрат компания Krux использует краткосрочные кластеры Amazon EMR на спотовых инстансах Amazon EC2, а также сервис Amazon S3 с файловой системой EMRFS в качестве уровня хранения данных для Apache Spark.
-
GumGum
Платформа GumGum, предлагающая размещение рекламы с использованием технологий «in‑image» и «in‑screen», использует Spark в Amazon EMR для прогнозного учета ресурсов, обработки журналов истории посещений и спонтанного анализа неструктурированных данных в Amazon S3. Повышение производительности этих рабочих нагрузок благодаря Spark позволило компании GumGum сэкономить время и деньги.
-
Hearst Corporation
Hearst Corporation, крупная компания, владеющая различными СМИ и медиаресурсами, предоставляет клиентам контент для просмотра более чем на 200 веб‑сайтах. Благодаря Apache Spark Streaming в Amazon EMR сотрудники редакции компании Hearst могут в режиме реального времени отслеживать, какие статьи вызывают положительный отклик и какие темы наиболее популярны.
-
CrowdStrike
Компания CrowdStrike занимается защитой конечных точек от несанкционированного доступа. Ее специалисты используют сервис Amazon EMR с системой Spark, чтобы обрабатывать терабайты данных о событиях и преобразовывать их в более сложное поведенческое описание действий, производимых на хостах. На основании этих данных компания CrowdStrike может сформировать обобщенные данные о событиях и выявить вредоносную активность.