AWS Glue предоставляется в новом поколении Amazon SageMaker

AWS Glue

Находите, подготавливайте и интегрируйте данные любого масштаба

Начать работу с AWS Glue

Подробнее об AWS Data Integration

Зачем использовать AWS Glue?

Подготовка данных для получения качественных результатов является первым этапом в проектах аналитики или машинного обучения. AWS Glue – бессерверный сервис интеграции данных, с помощью которого можно легко, быстро и экономично подготавливать данные. Вы можете обнаруживать более 100 различных источников данных и подключаться к ним, управлять данными в централизованном каталоге, а также визуально создавать, запускать и отслеживать конвейеры ETL для загрузки информации в озера данных. Благодаря встроенным возможностям генеративного искусственного интеллекта вы можете модернизировать задания Spark и быстрее создавать их с помощью интеллектуальных средств разработки ETL и устранения неполадок в Spark.

Introduction to AWS Glue (01:54)

Преимущества AWS Glue

Поддержка всех рабочих нагрузок

Гибкая поддержка ETL, ELT, пакетной обработки, потоковой передачи и многого другого без привязки

Масштабирование по запросу

Масштабирование петабайтов данных, оплата по факту использования и неограниченный объем данных

Специализированные инструменты

Поддержка всех пользователей данных: от разработчиков до бизнес-пользователей

Помощь генеративного искусственного интеллекта

Получайте помощь на основе искусственного интеллекта на протяжении всего процесса интеграции данных: от автоматической генерации кода ETL до модернизации заданий Spark. AWS Glue обеспечивает интеллектуальную генерацию кода, обновления Spark с помощью искусственного интеллекта (ознакомительный режим) и встроенные средства устранения неполадок Spark (ознакомительный режим).

Многофункциональный сервис

Полные возможности интеграции данных в одном бессерверном сервисе

Как это работает

AWS Glue — это бессерверный сервис интеграции данных, который упрощает поиск, подготовку, перемещение и интеграцию данных из множества источников для анализа, машинного обучения и разработки приложений.

Варианты движков для интеграции данных
Задания ETL, управляемые событиями
Каталог данных AWS Glue
Бескодовые задания ETL
Мониторинг качества данных и управление им
Подготовка данных

Варианты движков для интеграции данных
Выберите желаемый движок для интеграции данных в AWS Glue, чтобы поддерживать своих пользователей и рабочие нагрузки.

На диаграмме показано, как пользователи AWS Glue могут выбирать варианты интерфейса, чтобы создавать рабочие нагрузки заданий с помощью различных движков для интеграции данных. Отображение четырех разделов: один слева, два посередине и один справа.

Первый раздел слева называется «Источники данных». Он включает следующие источники данных: «Amazon S3», «Amazon DynamoDB», «Базы данных, работающие на Amazon EC2», «Базы данных» и «SaaS».

Стрелка из первого раздела указывает на средний раздел в верхней части схемы под названием «Выбор интерфейсов». Во второй раздел включены три элемента: «AWS Glue Studio», «Блокноты Amazon SageMaker», а также «Блокноты и IDE».

Под вторым разделом расположен следующий текст: «Открытые интерфейсы поддерживают интерактивные рабочие нагрузки и рабочие нагрузки заданий». Этот текст включает стрелку, направленную на описанный ранее второй раздел, расположенный выше, и стрелку, указывающую на третий раздел ниже.

Третий раздел называется «Движки для интеграции данных». Здесь размещен следующий текст: «Выберите желаемый бессерверный масштабируемый движок для обработки данных с автоматическим масштабированием и оплатой по факту использования». В этот раздел включены три названия движков: «AWS Glue for Ray», «AWS Glue for Python Shell» и «AWS Glue for Apache Spark».

Четвертый раздел отображается справа от второго, стрелка указывает со второго раздела на четвертый. В четвертом разделе размещен следующий текст: «Создавайте данные и загружайте их в озера данных и хранилища данных». Этот раздел также включает три элемента: «Amazon Redshift», «Озера данных» и «Хранилища данных».

Нажмите для увеличения
Задания ETL, управляемые событиями
Сервис AWS Glue может запускать ваши задания ETL по мере поступления новых данных. К примеру, вы можете настроить AWS Glue таким образом, чтобы запуск ваших заданий ETL выполнялся тогда, когда новые данные становятся доступными в Простом сервисе хранения данных Amazon (S3).
Каталог данных AWS Glue
Каталог данных можно использовать для быстрого обнаружения данных и поиска различных наборов данных на AWS без перемещения данных. После каталогизации данные сразу становятся доступными для выполнения поиска и запросов с помощью Amazon Athena, Amazon EMR и Amazon Redshift Spectrum.
Бескодовые задания ETL
Сервис AWS Glue Studio упрощает визуальное создание, запуск и мониторинг ETL-заданий AWS Glue. Вы можете создавать задания ETL, которые перемещают и преобразовывают данные с помощью редактора с поддержкой перетаскивания объектов мышью, а AWS Glue будет автоматически генерировать код.
Мониторинг качества данных и управление им
AWS Glue Data Quality автоматизирует создание правил для качества данных, управление и мониторинг. Это помогает обеспечить высокое качество данных, во всех озерах и каналах передачи данных.

На схеме показано, как с помощью AWS Glue Data Quality создавать рекомендации касательно правил, контролировать качество данных и отправлять оповещения в случае его ухудшения. Три раздела отображаются слева направо.

В первом разделе приведена иллюстрация Каталога данных AWS Glue и AWS Glue ETL. Для Каталога данных AWS Glue приведен следующий текст: «Вносите в каталог все наборы данных из своих озер данных». Для AWS Glue ETL приведен следующий текст: «Интегрируйте и преобразуйте данные из различных источников».

Второй раздел называется «AWS Glue обеспечивает качество данных». В этом разделе три значка. Первый – в виде контрольного списка. Подпись под ним гласит: «Рекомендации касательно правил для обеспечения качества данных. Быстрое начало работы с использованием автоматических рекомендаций для обеспечения качества данных». Второй значок – в виде карандаша. Подпись под ним гласит: «Предварительно подготовленные правила для обеспечения качества данных. Редактируйте или дополняйте рекомендации, используя предварительно подготовленные правила для обеспечения качества данных». На третьем значке изображен колокольчик. Подпись под ним гласит: «Оповещения и действия. Добавляйте оповещения и действия для выполнения при ухудшении качества данных».

В третьем разделе два значка расположены друг над другом. На первом значке изображена столбчатая диаграмма. Под ней написано: «Показатели. Используйте показатели качества данных, чтобы уверенно принимать бизнес-решения». На втором значке изображен символ предупреждения. Под ним написано: «Оповещения. Используйте оповещения, чтобы узнавать об ухудшении качества и принимать меры по исправлению данных»,

Нажмите для увеличения
Подготовка данных
Благодаря AWS Glue DataBrew можно экспериментировать с данными непосредственно из озера данных, хранилищ данных и баз данных, включая Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora и Службу реляционных баз данных Amazon (RDS), а также изучать такие данные. Сервис DataBrew представляет вашему вниманию более 250 предварительно созданных преобразований для автоматизации таких задач по подготовке данных, как фильтрация аномалий, стандартизация форматов и исправление недопустимых значений.

Студия AWS Glue – это инструмент визуальной подготовки данных, который можно использовать для подготовки данных с помощью интерактивного, визуального интерфейса в формате point-and-click без написания кода.

Примеры использования

Упростите управление конвейером ETL

Избавьтесь от необходимости в управлении удаленной инфраструктурой благодаря автоматическому распределению и управлению работниками, используйте один сервис, который удовлетворит все ваши потребности по интеграции данных.

Подробнее об автомасштабировании AWS Glue

Поддержка различных платформ и рабочих нагрузок для обработки

Упростите обеспечение поддержки различных платформ обработки данных, таких как ETL и ELT, и различных рабочих нагрузок, включая пакеты, микропакеты и потоки.

Подробнее о потоковой передаче заданий ETL

Интерактивное изучение, экспериментирование и обработка данных

Используя интерактивные сеансы AWS Glue, специалисты по работе с данными могут в интерактивном режиме изучать и подготавливать данные с использованием интегрированной среды разработки (IDE) или выбранного блокнота.

Подробнее об интерактивных сеансах AWS Glue

Эффективное обнаружение данных

Быстро идентифицируйте данные в AWS, локальной среде или других облаках, а затем делайте их сразу же доступными для опроса и преобразования.

Подробнее о каталоге данных AWS Glue

Что нового?

1-10 (30)

Нет результатов

1 …

… 3

Начать работу с Glue

Протестируйте AWS Glue бесплатно

Регистрация

Выполняйте разработку с помощью AWS Glue

Начать работу

Интегрируйте свои данные

Прочтите руководство для разработчиков

Нашли то, что искали сегодня?

Сообщите нам, как мы могли бы улучшить качество контента на наших страницах.

Подробнее об AWS