В чем преимущества Glue?
При использовании AWS Glue начисляется посекундная плата на основе почасового тарифа за использование поисковых ботов (обнаружение данных), а также заданий на извлечение, преобразование и загрузку (ETL) (обработка и загрузка данных). При использовании каталога данных AWS Glue начисляется упрощенная ежемесячная плата за хранение метаданных и доступ к ним. Хранение первого миллиона объектов и первый миллион обращений к ним не оплачиваются. При использовании адреса разработки для интерактивной разработки кода ETL начисляется посекундная плата на основе почасового тарифа. Интерактивные сеансы AWS Glue DataBrew оплачиваются по количеству сеансов, а задания DataBrew – поминутно. Использование реестра AWS Glue Schema предоставляется без дополнительной оплаты.
Примечание. Цены могут отличаться в зависимости от региона AWS.
-
Задания ETL и интерактивные сеансы
-
Каталог данных
-
Поисковые боты
-
Интерактивные сеансы DataBrew
-
Задания DataBrew
-
Качество данных
-
Нулевое использование ETL
-
Задания ETL и интерактивные сеансы
-
Примеры расчета цен
Задание ETL. Рассмотрим задание AWS Glue Apache Spark, которое выполняется в течение 15 минут и использует шесть DPU. Стоимость 1 DPU‑часа составляет 0,44 USD. Поскольку задание выполнялось в течение 15 минут и использовало шесть DPU, вы заплатите AWS следующую сумму: 6 DPU * 0,25 часа * 0,44 USD или 0,66 USD.
Блокноты заданий и интерактивные сеансы AWS Glue Studio. Предположим, что вы используете блокнот в AWS Glue Studio для интерактивной разработки кода ETL. По умолчанию для интерактивного сеанса выделяется пять DPU. Стоимость 1 DPU‑часа составляет 0,44 USD. Если сеанс длится 24 минуты, будет начислена плата в размере 5 DPU * 0,4 часа * 0,44 USD, то есть 0,88 USD.
-
Каталог данных
-
Каталог данных AWS Glue – это централизованное хранилище технических метаданных для всех ваших активов данных из различных источников, включая Amazon S3, Amazon Redshift и сторонние источники. Каталог данных можно получить в Amazon SageMaker Lakehouse для получения данных, аналитики и искусственного интеллекта. Он предоставляет единый интерфейс для организации данных в виде каталогов, баз данных и таблиц, а также запросов к ним из Amazon Redshift, Amazon Athena и Amazon EMR. Возможности AWS Lake Formation в каталоге данных позволяют централизовать управление данными в AWS. Управляйте активами данных, используя детальные разрешения на данные и знакомые функции в стиле базы данных.
При использовании каталога данных взимается плата за хранение метаданных таблиц и доступ к ним, а также за выполнение заданий по обработке данных, вычисляющих статистику таблиц и оптимизацию таблиц.
Цены на метаданные
В каталоге данных можно бесплатно хранить до миллиона объектов метаданных. Если количество объектов метаданных превышает миллион, начисляется ежемесячная плата в размере 1,00 USD за каждые 100 000 объектов сверх миллиона. Объектом метаданных в каталоге данных считается таблица, версия таблицы, раздел, индексы разделов, статистика, база данных или каталог.
Ведение таблиц и статистика
Каталог данных обеспечивает управляемое сжатие таблиц Apache Iceberg в объектном хранилище Amazon S3, сжатие небольших объектов в более крупные для повышения производительности чтения с помощью аналитических сервисов AWS, таких как Amazon Redshift, Athena, Amazon EMR и задания AWS Glue ETL. Плата начисляется на основе почасового тарифа с учетом количества блоков обработки данных (DPU), используемых для сжатия таблицы. Один блок обработки данных (DPU) содержит 4 виртуальных ЦП и 16 ГБ памяти. Плата начисляется на посекундной основе с округлением до ближайшей секунды. Минимальное время работы составляет 1 минуту.
Каталог данных также поддерживает статистику таблиц AWS Glue на уровне столбцов. Эта статистика интегрирована с оптимизатором затрат (CBO) в Athena и запросах из озера данных Amazon Redshift, что повышает эффективность обработки запросов и помогает снизить затраты.
Оптимизация
- 0,44 USD за час обработки данных при оптимизации таблиц Apache Iceberg. Посекундная оплата, минимальное время – 1 минута.
Статистика
- 0,44 USD за DPU-час для создания статистики (с посекундной оплатой). Минимальное учитываемое время – 1 минута.
Дополнительное использование и затраты
Хранилище
Используя каталог данных, вы можете создавать таблицы в Amazon S3 и Amazon Redshift и управлять ими, при этом за хранение таблиц взимается плата по стандартным тарифам Amazon S3 или Amazon Redshift соответственно. Дополнительная плата за хранение в каталоге данных не взимается.
1. При хранении данных в Amazon S3 плата по стандартному тарифу начисляется только за хранение данных в Amazon S3, запросы и передачу данных. Подробные сведения см. на странице цен на Amazon S3.2. При хранении данных в Amazon Redshift взимается плата по стандартным тарифам Amazon Redshift за хранение. Подробные сведения см. в ценах на Amazon Redshift.
Вычисления
При доступе к таблицам Amazon Redshift из Amazon EMR, AWS Glue, Athena или любого движка, совместимого с Apache Iceberg, с открытым исходным кодом или от стороннего разработчика для вычислительных ресурсов используется управляемая сервисом рабочая группа бессерверного Amazon Redshift. Управляемая рабочая группа бессерверного Amazon Redshift используется для фильтрации результатов в таблицах, а за используемые вычислительные ресурсы взимается плата по стандартным тарифам бессерверного Amazon Redshift. Отдельная плата не взимается за запросы к таблицам, хранящимся в Amazon Redshift, с помощью Amazon Redshift. Узнать больше можно на странице с ценами на Amazon Redshift.
Разрешения Lake Formation
Lake Formation интегрируется с каталогом данных и предоставляет разрешения на уровне баз данных, таблиц, столбцов, строк и ячеек, используя средства управления доступом на основе тегов или имен, а также совместную работу из нескольких учетных записей. При создании или использовании разрешений Lake Formation с интегрированными сервисами AWS отдельная плата не взимается.
Примеры расчета цен
Каталог данных на уровне бесплатного пользования AWS. Предположим, что вы храните миллион объектов метаданных в каталоге данных в течение определенного месяца и делаете 1 миллион запросов метаданных для доступа к этим таблицам. Вы заплатите 0 USD, поскольку это соответствует уровню бесплатного пользования каталогом данных AWS Glue. Хранение первого миллиона объектов метаданных и первый миллион запросов метаданных в месяц не оплачиваются.
Стандартный уровень каталога данных. Теперь предположим, что объем использования хранилища метаданных не изменился и по‑прежнему составляет 1 миллион объектов метаданных в месяц, однако количество запросов метаданных выросло до 2 миллионов в месяц. Предположим также, что для поиска новых таблиц вы применяете поисковые боты, которые работают в течение 30 минут и используют 2 DPU.
Плата за хранение по‑прежнему составляет 0 USD, поскольку хранение первого миллиона объектов метаданных не оплачивается. Первый миллион запросов также не оплачивается. Вы заплатите 1 USD за один миллион запросов сверх уровня бесплатного пользования каталога данных.
Использование каталога данных с другими сервисами.
Например, при запросе таблиц в Amazon Redshift с помощью Athena SQL в SageMaker Lakehouse с вас будет взиматься плата за следующее: хранение таблиц в Amazon Redshift по стандартным ценам Amazon Redshift; запрос метаданных в каталоге данных на основе стандартной цены запроса к каталогу данных; хранение метаданных за хранение метаданных каталога, базы данных и таблиц в каталоге данных; RPU-часы бессерверного Amazon Redshift посекундно (с минимальной оплатой 60 секунд) за фильтрацию результатов таблицы Amazon Redshift; количество байт, просканированных запросом Athena, с округлением до ближайшего мегабайта с минимальным объемом данных на запрос 10 МБ по стандартным ценам Athena.
В другом сценарии, в котором вы запрашиваете таблицы в Amazon Redshift с помощью бессерверного Amazon EMR, с вас будет взиматься плата за следующее: хранение таблиц в Amazon Redshift по стандартным ценам Amazon Redshift; запрос метаданных в каталоге данных на основе стандартной цены запроса к каталогу данных; хранение метаданных за хранение метаданных каталога, базы данных и таблиц в каталоге данных; RPU-часы бессерверного Amazon Redshift посекундно (с минимальной оплатой 60 секунд) за фильтрацию результатов таблицы Amazon Redshift; объем ресурсов виртуального ЦП, памяти и хранилища, используемых вашими сотрудниками в приложении Amazon EMR.
В еще одном сценарии, в котором вы запрашиваете таблицы Apache Iceberg в объектном хранилище Amazon S3 с помощью Amazon Redshift Serverless, с вас будет взиматься плата за следующее: хранение таблиц Apache Iceberg в Amazon S3 по стандартной цене Amazon S3; запрос метаданных в каталог данных по стандартной цене запроса каталога данных; хранение метаданных за хранение метаданных каталога, базы данных и таблиц в каталоге данных; время вычислений (RPU-часы) по стандартной цене Amazon Redshift.
За работу поисковых ботов AWS Glue начисляется плата в размере 0,44 USD за DPU‑час, поэтому вы заплатите 2 DPU * 0,5 часа по 0,44 USD за DPU‑час, то есть 0,44 USD.
Если вы создаете статистику по таблице AWS Glue на протяжении 10 минут и используете для этого 1 DPU, вам будет выставлен счет за 1 DPU * 0,1666 часа * 0,44 USD за DPU-час, что составляет 0,07 USD.
Если вы сжимаете таблицы Apache Iceberg, хранящиеся в объектном хранилище Amazon S3, в течение 30 минут и используете 2 DPU, вам будет выставлен счет за 2 DPU * 0,5 часа * 0,44 USD за DPU-час, то есть 0,44 USD.
- 0,44 USD за час обработки данных при оптимизации таблиц Apache Iceberg. Посекундная оплата, минимальное время – 1 минута.
-
Поисковые боты
-
-
Интерактивные сеансы DataBrew
-
Примеры расчета цен
Расчет стоимости для AWS Glue DataBrew. Стоимость каждого интерактивного сеанса продолжительностью 30 минут составляет 1,00 USD. Если вы начнете сеанс в 9:00, немедленно покинете консоль и вернетесь с 9:20 по 9:30, это будет 1 сеанс на общую сумму 1 USD.
Если вы начнете сеанс в 9:00 и будете работать в консоли DataBrew до 9:50, выйдете из области проекта DataBrew и вернетесь для последнего взаимодействия в 10:15, это займет 3 сеанса, и вам будет выставлен счет в размере 1 USD за сеанс на общую сумму 3 USD.
-
Задания DataBrew
-
Примеры расчета цен
AWS Glue DataBrew. Если задание DataBrew выполняется в течение 10 минут с использованием 5 узлов DataBrew, стоимость составляет 0,40 USD. Поскольку задание выполнялось в течение 1/6 часа с использованием 5 узлов, будет начислена плата в размере 5 узлов * 1/6 часа по 0,48 USD за узел, то есть 0,40 USD.
-
Качество данных
-
Функция «Качество данных AWS Glue» повышает доверие к вашим данным, помогая вам достичь высокого качества данных. Она автоматически измеряет, отслеживает качество данных в ваших озерах и конвейерах данных и управляет им, упрощая выявление недостающих, устаревших или некачественных данных.
Вы можете получить доступ к функциям качества данных из Каталога данных и AWS Glue Studio, а также через API AWS Glue.
Цены на управление качеством данных наборов данных, каталогизированных в каталоге данных.Вы можете выбрать набор данных из каталога данных и создать рекомендации. Это действие создаст задачу рекомендации, для которой будут предоставлены устройства обработки данных (DPU). Получив рекомендации, вы можете изменить или добавить новые правила и составить их расписание. Эти задачи называются задачами качества данных, для которых вы будете предоставлять DPU. Вам потребуется не менее двух DPU с минимальной продолжительностью оплаты в 1 минуту.
Цены на управление качеством данных наборов данных, обрабатываемых в AWS Glue ETL.Вы также можете добавить эти проверки качества данных в задачи ETL, чтобы предотвратить попадание некачественных данных в ваши озера данных. Эти правила качества данных будут содержаться в задачах ETL, в результате чего увеличится время выполнения или потребление DPU. В качестве альтернативы можно использовать гибкое исполнение для рабочих нагрузок, на которые не распространяется действие SLA.
Цены на обнаружение аномалий в AWS Glue ETL.
Обнаружение аномалий.
За время, необходимое для обнаружения аномалий, на каждый статистический показатель в дополнение к вашим DPU для задач ETL потребуется одно DPU. В среднем на обнаружение аномалии по одной статистике уходит от 10 до 20 секунд. Предположим, что вы настроили два правила (правило 1: объем данных должен превышать 1000 записей; правило 2: количество столбцов должно быть больше 10) и один анализатор (анализатор 1: мониторинг полноты столбца). Эта конфигурация создаст три статистики: количество строк, количество столбцов и процент полноты столбца. С вас будет взиматься плата за 3 дополнительных DPU за время, необходимое для обнаружения аномалий (минимум 1 секунда). Подробную информацию см. в примере 4.
Переподготовка.
Возможно, вы захотите исключить запуски задач или статистик обнаружения аномалий, чтобы алгоритм обнаружения аномалий точно прогнозировал последующие аномалии. С этой целью в AWS Glue предусмотрена возможность исключать или включать статистику. На переобучение модели в течение необходимого для этого времени потребуется одно DPU. В среднем переподготовка каждой статистики занимает от 10 секунд до 20 минут. Подробную информацию см. в примере 5.
Хранение статистики.
За хранение собранной статистики плата не взимается. Максимально допустимое количество статистик для одного аккаунта: 100 000. Срок хранения составляет 2 года.
Дополнительные расходы.
AWS Glue обрабатывает данные непосредственно из Amazon Simple Storage Service (Amazon S3). При считывании данных с помощью AWS Glue не взимается дополнительная плата за хранение. Плата по стандартному тарифу начисляется только за хранение данных в Amazon S3, запросы и передачу данных. В соответствии с вашей конфигурацией временные файлы, результаты качества данных и файлы перемешивания хранятся в выбранной вами корзине S3 и оплачиваются по стандартным тарифам S3.
При использовании каталога данных вы платите по стандартным тарифам для Каталога данных. Подробную информацию см. в разделе о каталоге данных, хранении и запросах.
Примеры расчета цен
Пример 1. Получение рекомендаций для таблицы в Каталоге данныхНапример, рассмотрим задание рекомендации с 5 DPU, которое выполняется за 10 минут. Вы заплатите за 5 DPU * 1/6 часа * 0,44 USD, что составляет 0,37 USD.
Пример 2. Оценка качества данных таблицы в Каталоге данныхПосле просмотра рекомендаций вы можете отредактировать их, если это необходимо, а затем запланировать выполнение задания качества данных путем предоставления DPU. Например, рассмотрим задание оценки качества данных с 5 DPU, которое выполняется за 20 минут.
Вы заплатите за 5 DPU * 1/3 часа * 0,44 USD, что составляет 0,73 USD.
Пример 3. Оценка качества данных в задании ETL AWS GlueВы также можете добавить эти проверки качества данных в задания ETL AWS Glue, чтобы предотвратить попадание некачественных данных в ваши озера данных. Это можно сделать, добавив задание Data Quality Transform в AWS Glue Studio или используя API AWS Glue в коде, который вы создаете в блокнотах AWS Glue Studio. Рассмотрим задание AWS Glue, выполняемое там, где правила качества данных настроены в рамках конвейера, которое выполняется 20 минут (1/3 часа) с 6 DPU. Вы заплатите за 6 DPU * 1/3 часа * 0,44 USD, что составляет 0,88 USD. Кроме того, вы можете использовать Flex, за что взимается плата за 6 DPU * 1/3 часа * 0,29 USD, что составляет 0,58 USD.
Пример 4. Оценка качества данных в задаче AWS Glue ETL с помощью функции Обнаружения аномалий
Рассмотрим задачу AWS Glue, которая считывает данные из Amazon S3, преобразует данные и проверяет качество данных перед загрузкой в Amazon Redshift. Предположим, что этот конвейер состоял из 10 правил и 10 анализаторов, в результате чего было собрано 20 статистик. Кроме того, предположим, что процесс извлечения, преобразования, загрузки, сбора статистики, оценки качества данных займет 20 минут. Если функция обнаружения аномалий не включена, с клиента будет взиматься плата за 6 DPU * 1/3 часа (20 минут) * 0,44 USD, что составляет 0,88 USD (A). Если функция обнаружения аномалий включена, мы добавим 1 DPU на каждую статистику, а обнаружение аномалий займет в среднем 15 секунд. В этом примере взимается плата за 20 статистик: 1 DPU * 15/3600 (0,0041 час/статистика) * 0,44 USD (стоимость за DPU-час) = 0,037 USD (B). Общая стоимость задачи составит: 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Пример 5. ПереподготовкаПредположим, в задаче Glue обнаружена аномалия. Вы решили исключить аномалию из модели, чтобы алгоритм обнаружения аномалий точно прогнозировал последующие аномалии. Для этого можно переобучить модель, исключив эту статистику аномалий. За время, необходимое для переобучения модели, на каждую статистику потребуется 1 DPU. В среднем это может занять 15 секунд. Таким образом, если вы исключите 1 точку данных, то получите 1 статистику * 1 DPU * 15/3600 (0,0041 час/статистика) * 0,44 = 0,00185 USD.
-
Нулевое использование ETL
-
Нулевое использование ETL – это набор полностью управляемых интеграций от AWS, который сводит к минимуму необходимость создания конвейеров извлечения, преобразования и загрузки данных (ETL) для стандартных сценариев приема и репликации в ваших инициативах по аналитике и искусственному интеллекту. AWS не взимает дополнительную плату за интеграцию с нулевым использованием ETL. Вы платите за исходные и целевые ресурсы, применяемые для создания и обработки данных изменений, которые разработаны в рамках интеграции с нулевым использованием ETL.
Поддержка Amazon SageMaker Lakehouse и Amazon Redshift для интеграций с нулевым использованием ETL из приложений
Amazon SageMaker Lakehouse и Amazon Redshift поддерживают интеграции с нулевым использованием ETL из приложений, что позволяет автоматизировать извлечение и загрузку данных из приложений в Amazon SageMaker Lakehouse и Amazon Redshift. Полный список поддерживаемых источников с нулевым использованием ETL см. в документации AWS Glue с нулевым использованием ETL.
AWS Glue взимает плату за прием исходных данных приложения, поддерживаемых интеграцией с нулевым использованием ETL. Вы платите за ресурсы AWS Glue, используемые для загрузки вставок, обновлений и удалений из приложения. Плата взимается в зависимости от объема данных, полученных из приложения, и не взимается за отправку запроса на получение данных. Каждый запрос на прием данных, отправленный AWS Glue, имеет минимальный объем 1 мегабайт (МБ).
Когда полученные данные записываются в Amazon Redshift, вы платите за ресурсы, примененные для обработки измененных данных, которые созданы в рамках интеграции с нулевым использованием ETL, по тарифам Amazon Redshift.
Когда полученные данные записываются в SageMaker Lakehouse, вы платите за ресурсы, примененные для обработки измененных данных, которые созданы в рамках интеграции с нулевым использованием ETL. Используемый вычислительный ресурс зависит от типа хранилища, выбранного для SageMaker Lakehouse.
- Плата за управляемое хранилище Amazon Redshift зависит от вычислительных ресурсов бессерверной версии Amazon Redshift. Подробные сведения см. в разделе цен на Amazon Redshift.
- Плата за Amazon Simple Storage Service (S3) рассчитывается из расчета вычислительных ресурсов AWS Glue за единицу обработки данных в час (DPU Hour-час) и оплачивается посекундно (минимум – 1 минута).
Интеграция Amazon DynamoDB с нулевым использованием ETL с Amazon SageMaker Lakehouse
Интеграция Amazon DynamoDB с нулевым использованием ETL с Amazon SageMaker Lakehouse автоматизирует извлечение и загрузку данных, позволяя использовать аналитику и ИИ для данных из таблиц DynamoDB в озере для хранения данных.
Плата за DynamoDB взимается за экспорт данных из непрерывно создаваемых резервных копий DynamoDB (восстановление на момент времени). Подробные сведения см. на странице цен на Amazon DynamoDB.
Когда полученные данные записываются в Amazon SageMaker Lakehouse, вы платите за ресурсы, примененные для обработки измененных данных, которые созданы в рамках интеграции с нулевым использованием ETL, исходя из типа хранилища, выбранного для Amazon SageMaker Lakehouse.
- Плата за управляемое хранилище Amazon Redshift зависит от вычислительных ресурсов бессерверной версии Amazon Redshift. Подробные сведения см. в разделе цен на Amazon Redshift.
- Плата за Amazon Simple Storage Service (S3) рассчитывается из расчета вычислительных ресурсов AWS Glue за единицу обработки данных в час (DPU Hour-час) и оплачивается посекундно (минимум – 1 минута).
Примечание. Цены могут отличаться в зависимости от региона.
Подробнее о доступности сервиса AWS Glue см. в таблице глобальных регионов.