Presto в Amazon EMR
Функции и преимущества
Истории успеха клиентов
Истории успеха клиентов: Netflix
Компания Netflix выбрала Presto в качестве ядра интерактивной обработки запросов к большим данным, совместимого с ANSI SQL. Presto хорошо масштабируется, является решением с открытым исходным кодом и интегрируется с Hive Metastore и Amazon S3, на которых основана среда хранения больших данных Netflix. Netflix запускает Presto на постоянных кластерах Amazon EMR, что позволяет быстро и гибко запрашивать данные из хранилища Amazon S3 объемом порядка 25 ПБ. Netflix является активным участником проекта Presto, и Amazon EMR предоставляет Netflix гибкие возможности запуска собственной сборки Presto на кластерах Amazon EMR. В среднем Netflix выполняет на своих кластерах Presto около 3500 запросов в день.
Истории успеха клиентов: Jammp
Jampp – это маркетинговая платформа для мобильных приложений, которая использует передовые методы ретаргетинга рекламы для привлечения в приложения новых пользователей. Jampp покупает рекламные инструменты для мобильных приложений с помощью своего собственного механизма торгов в режиме реального времени (RTB), который динамически размещает заявки на рекламные инструменты на 18 биржах RTB и более чем в 150 мобильных рекламных сетях. Jampp использует Presto на базе Amazon EMR для расширенного спонтанного анализа данных журналов, объединяющего данные из нескольких источников и сложные вычисления сегментов ретаргетинга. С увеличением базы пользователей Jampp на 600 % возросла потребность в выполнении сложных аналитических запросов. Компания Jampp отказалась от использования сложного Python‑приложения на MySQL для многоядерной архитектуры в пользу Presto, что привело к 12‑кратному повышению производительности. В настоящее время Jampp использует Presto в Amazon EMR для обработки 40 ТБ данных в день.
Истории успеха клиентов: Cogo Labs
Инкубатор стартапов Cogo Labs управляет платформой для анализа рынка и бизнес‑аналитики, которой пользуются входящие в инкубатор компании и собственные группы специалистов Cogo Labs. Компания стандартизировала работу с данными на основе SQL, чтобы обеспечить поддержку среды OLAP с высоким уровнем инноваций. Cogo Labs выбрала Presto за производительность при выполнении запросов в режиме реального времени, поддержку ANSI‑SQL и способность обрабатывать данные непосредственно из Amazon S3. Благодаря ядру Presto, работающему на Amazon EMR, более 100 разработчиков и аналитиков компании могут отправлять SQL‑запросы более чем к 500 ТБ данных, хранящихся в Amazon S3, для просмотра этих данных, спонтанного анализа и создания отчетов. Cogo Labs использует комбинацию краткосрочных и постоянных кластеров и полагается на интеграцию Amazon EMR со спотовыми инстансами для снижения затрат.
История успеха клиентов: OpenSpan
Компания OpenSpan предоставляет решения для автоматизации и аналитики, которые помогают объединить людей, процессы и технологии для лучшего понимания производительности сотрудников, упрощения транзакций, а также вовлечения сотрудников и клиентов. Компания OpenSpan осуществила миграцию с HBase на Presto в Amazon EMR с хранилищем данных в Amazon S3. Компания OpenSpan выбрала ядро Presto, поскольку оно обладает интерфейсом SQL и может запрашивать данные в режиме реального времени непосредственно из Amazon S3. Это позволяет сотрудникам компании быстро просматривать огромные объемы данных и быстро разрабатывать новые продукты для обработки данных. OpenSpan использует формат файла Parquet и применяет PrestogreSQL для подключения к Presto. Компания OpenSpan выбрала Amazon EMR и Amazon S3 для экономически эффективной обработки гигабайтов данных, которые она получает ежедневно от своих клиентов.
Истории успеха клиентов: Kanmu
Kanmu – это японский стартап в сфере финансовых сервисов, который предоставляет держателям кредитных карт специальные предложения на основании информации об использовании карт. Компания Kanmu осуществила миграцию с Hive на Presto в Amazon EMR, поскольку Presto позволяет выполнять поисковый и итерационный анализ в интерактивном режиме, обладает хорошей производительностью при работе с Amazon S3 и может масштабироваться для выполнения запросов к большим наборам данных. Kanmu использует модуль Fluentd-plugin-s3 для передачи данных в Amazon S3, оптимизированный формат столбцов (ORC) для хранения данных, а также веб-клиент shib на основе node.js для выполнения SQL-запросов.