Инстансы Amazon EC2 P5

Инстансы на базе графических процессоров с высочайшей производительностью для приложений глубокого обучения и высокопроизводительных вычислений

В чем преимущества инстансов Amazon EC2 P5?

Инстансы Amazon Elastic Compute Cloud (Amazon EC2) P5 на базе графических процессоров NVIDIA H100 Tensor Core и инстансов P5e и P5en на базе графических процессоров NVIDIA H200 Tensor Core обеспечивают самую высокую производительность в Amazon EC2 для приложений глубокого обучения и высокопроизводительных вычислений. Они помогают сократить время на создание решения до 4 раз по сравнению с инстансами EC2 на базе графических процессоров предыдущего поколения и снизить затраты на обучение моделей машинного обучения (экономия составит до 40 %). Эти инстансы помогают ускорить внедрение решений и быстрее выходить на рынок. Инстансы P5, P5e и P5en можно использовать для обучения и развертывания все более сложных больших языковых моделей (LLM) и моделей диффузии, лежащих в основе самых требовательных приложений генеративного искусственного интеллекта (ИИ). Эти приложения включают ответы на вопросы, генерацию кода, генерацию видео и изображений и распознавание речи. Эти инстансы также можно использовать для развертывания требовательных масштабных HPC-приложений для фармацевтических исследований, сейсмического анализа, прогнозирования погоды и финансового моделирования.

Для повышения производительности и снижения затрат инстансы P5 и P5e дополняют графические процессоры NVIDIA Tensor Core H100 и H200, обеспечивающие в 2 раза больше производительности процессора, в 2 раза больше системной памяти и в 4 раза больше локальной памяти по сравнению с инстансами на базе графических процессоров предыдущего поколения. Инстансы P5en сочетают графические процессоры NVIDIA H200 Tensor Core и высокопроизводительный процессор Intel Sapphire Rapids, обеспечивая между процессором и графическим процессором соединение Gen5 PCIe. Инстансы P5en обеспечивают большую в 2 раза пропускную способность между процессором и графическим процессором и меньшую задержку в сети по сравнению с инстансами P5e и P5, тем самым повышая производительность распределенного обучения. Инстансы P5 и P5e поддерживают сеть со скоростью до 3200 Гбит/с с использованием Интерфейса эластичной матрицы (EFA) второго поколения. P5en благодаря третьему поколению EFA, использующему Nitro v5, демонстрирует меньшую задержку (до 35 %) по сравнению с P5, использующим предыдущее поколение EFA и Nitro. Это помогает повысить производительность коллективной связи для рабочих нагрузок распределенного обучения, таких как глубокое обучение, генеративный искусственный интеллект, обработка данных в реальном времени и приложения для высокопроизводительных вычислений (HPC). Для обеспечения крупномасштабных вычислений с низкой задержкой эти инстансы развертываются в Amazon EC2 UltraClusters, что дает возможность масштабировать до 20 000 графических процессоров H100 или H200, связанных между собой в петабитную неблокирующую сеть. Инстансы P5, P5e и P5en в кластерах EC2 UltraClusters обеспечивают совокупную вычислительную мощность до 20 эксафлопс, что эквивалентно производительности суперкомпьютера.

Инстансы Amazon EC2 P5

Преимущества

Инстансы P5, P5e и P5en могут обучать сверхбольшие модели генеративного искусственного интеллекта в любом масштабе и обеспечивать до 4 раз большую производительность по сравнению с инстансами EC2 на базе графических процессоров предыдущего поколения.

Инстансы P5, P5e и P5en сокращают время обучения и время на решение проблем с нескольких недель до нескольких дней. Это позволяет ускорить итерации и быстрее выходить на рынок.

Инстансы P5, P5e и P5en позволяют сократить расходы на глубокое обучение и инфраструктуру высокопроизводительных вычислений до 40 % по сравнению с инстансами EC2 предыдущего поколения на базе графических процессоров.

Инстансы P5, P5e и P5en обеспечивают пропускную способность сети EFA до 3200 Гбит/с. Эти инстансы развернуты в сверхкрупных кластерах EC2 UltraClusters и обеспечивают совокупную вычислительную мощность 20 эксафлопс.

Возможности

Инстансы P5 предоставляют до 8 графических процессоров NVIDIA H100 с общим объемом памяти графического процессора HBM3 до 640 ГБ на каждый инстанс. Инстансы P5e и P5en предоставляют до 8 графических процессоров NVIDIA H200 с общим объемом памяти графического процессора HBM3e до 1128 ГБ на каждый инстанс. Инстансы обоих типов поддерживают соединение графических процессоров NVSwitch со скоростью до 900 Гбит/с (общая пропускная способность для каждого инстанса составляет 3,6 ТБ/с), поэтому каждый графический процессор может взаимодействовать со всеми другими графическими процессорами того же инстанса с минимальной задержкой, без промежуточных переходов.

Графические процессоры NVIDIA H100 и H200 оснащены новым движком-трансформером, который интеллектуально управляет и динамически выбирает между FP8 и 16-битными вычислениями. Эта функция помогает ускорить глубокое обучение на больших языковых моделях (LLM) по сравнению с графическими процессорами A100 предыдущего поколения. Для рабочих нагрузок высокопроизводительных вычислений графические процессоры NVIDIA H100 и H200 содержат новые инструкции DPX, которые еще больше ускоряют алгоритмы динамического программирования по сравнению с графическими процессорами A100.

Инстансы P5, P5e и P5en обеспечивают пропускную способность сети EFA до 3200 Гбит/с. Кроме того, EFA сочетается с NVIDIA GPUDirect RDMA, обеспечивая обмен данными между серверами графических процессоров с низкой задержкой в обход операционной системы.

Инстансы P5, P5e и P5en поддерживают файловые системы Amazon FSx для Lustre, что позволяет получить доступ к данным с пропускной способностью в сотни Гбит/с и миллионами операций ввода-вывода в секунду, необходимых для крупномасштабных рабочих нагрузок глубокого обучения и высокопроизводительных вычислений. Кроме того, каждый инстанс поддерживает локальное SSD-хранилище NVMe емкостью до 30 ТБ для быстрого доступа к большим наборам данных. Amazon Simple Storage Service (Amazon S3) также позволяет использовать практически неограниченное экономичное хранилище.

Отзывы клиентов

Здесь представлены несколько примеров того, как наши клиенты и партнеры достигли бизнес-целей с помощью инстансов Amazon EC2 P4.

  • Anthropic

    Anthropic создает надежные, интерпретируемые и управляемые системы искусственного интеллекта, которые получат широкие возможности для создания коммерческой и общественной пользы.

    В Anthropic мы работаем над созданием надежных, интерпретируемых и управляемых систем искусственного интеллекта. Несмотря на то, что современные крупные системы искусственного интеллекта общего назначения могут иметь значительные преимущества, они также могут быть непредсказуемыми, ненадежными и непрозрачными. Наша цель – добиться прогресса в решении этих вопросов и внедрить системы, которые будут полезны людям. Наша организация – одна из немногих в мире, которая создает фундаментальные модели исследований глубокого обучения. Эти модели очень сложны, и для их разработки и обучения необходимо эффективно распределить их по большим кластерам графических процессоров. Сегодня мы активно используем инстансы Amazon EC2 P4 и с нетерпением ждем запуска инстансов P5. Мы рассчитываем, что они обеспечат существенные преимущества по сравнению с инстансами P4d и будут доступны в больших масштабах, необходимых для создания больших языковых моделей нового поколения и сопутствующих продуктов.

    Том Браун, соучредитель Anthropic
  • Cohere

    Cohere, лидер в области языкового искусственного интеллекта, дает возможность каждому разработчику и предприятию создавать невероятные продукты с использованием ведущей в мире технологии обработки естественного языка (NLP), сохраняя при этом конфиденциальность и безопасность данных

    Cohere играет ведущую роль в том, чтобы помочь каждому предприятию использовать возможности языкового искусственного интеллекта для изучения, генерации, поиска и обработки информации естественным и интуитивно понятным способом, развертывая ее на нескольких облачных платформах в среде данных, наиболее подходящей для каждого клиента. Инстансы Amazon EC2 P5 на базе NVIDIA H100 позволят компаниям быстрее творить, расти и масштабироваться благодаря своим вычислительным мощностям в сочетании с передовыми возможностями больших языковых моделей Cohere и генеративным искусственным интеллектом.

    Эйдан Гомес, генеральный директор Cohere
  • Hugging Face

    Миссия Hugging Face – демократизация качественного машинного обучения.

    Являясь самым быстрорастущим сообществом разработчиков ПО с открытым исходным кодом для машинного обучения, мы предоставляем более 150 000 предварительно обученных моделей и 25 000 наборов данных на нашей платформе для обработки естественного языка, машинного зрения, биологии, обучения с подкреплением и многого другого. Благодаря значительному прогрессу в области больших языковых моделей и генеративного искусственного интеллекта мы работаем с AWS над созданием и внедрением моделей будущего с открытым исходным кодом. Мы с нетерпением ждем возможности использования инстансов Amazon EC2 P5 через Amazon SageMaker в сверхкрупных кластерах UltraClusters с EFA в любом масштабе, чтобы ускорить разработку новых базовых моделей искусственного интеллекта для каждого.

    Жюльен Шомонд, технический директор и соучредитель Hugging Face

Сведения о продукте

Размер инстанса Виртуальные ЦПУ Память инстанса (ТиБ) Графический процессор   Память графического процессора Пропускная способность сети (Гбит/с) GPUDirect RDMA Одноранговая связь графических процессоров Хранилище инстансов (ТБ) Пропускная способность EBS (Гбит/с)
p5.48xlarge 192 2 8 H100 640 ГБ
HBM3
EFA со скоростью 3200 Гбит/с Да NVSwitch 900 ГБ/с 8 × 3.84 SSD на базе NVMe 80
p5e.48xlarge 192 2 8 H200 1128 ГБ
HBM3e
EFA со скоростью 3200 Гбит/с Да NVSwitch 900 ГБ/с 8 × 3.84 SSD на базе NVMe 80
p5en.48xlarge 192 2 8 H200 HBM3e со скоростью 1128 ГБ EFA со скоростью 3200 Гбит/с Да NVSwitch 900 ГБ/с 8 × 3,84 SSD на базе NVMe 100

Начало работы со сценариями использования машинного обучения

SageMaker – полностью управляемый сервис для создания, обучения и развертывания моделей машинного обучения. При использовании SageMaker HyperPod можно с легкостью выполнять масштабирование рабочих нагрузок на десятки, сотни и тысячи графических процессоров для быстрого обучения моделей в любом масштабе, не беспокоясь о настройке кластеров эластичного обучения и управлении ими.

Образы DLAMI предоставляют специалистам по машинному обучению и ученым инфраструктуру и инструменты, которые позволяют ускорить работу с глубоким обучением в облаке в любых масштабах. Контейнеры для глубокого обучения – это образы Docker, на которые предварительно установлены платформы глубокого обучения. Они позволяют упростить процесс развертывания специальных сред для машинного обучения, избавляя от сложностей с их созданием и оптимизацией.

Если вы предпочитаете управлять собственными контейнерными рабочими нагрузками с помощью сервисов оркестрации контейнеров, вы можете развернуть инстансы P5, P5e и P5en с помощью Amazon EKS или Amazon ECS.

Начало работы со сценариями использования HPC

Инстансы P5, P5e и P5en – идеальная платформа для инженерного моделирования, финансовых вычислений, сейсмического анализа, молекулярного моделирования, геномики, рендеринга и прочих рабочих нагрузок высокопроизводительных вычислений, требующих наличия графического процессора. Для работы HPC‑приложений часто требуется высокая производительность сети, хранилище с высокой скоростью чтения и записи, большая емкость памяти, огромные вычислительные мощности либо все эти ресурсы одновременно. Все три типа инстансов поддерживают EFA, что позволяет HPC‑приложениям, использующим интерфейс передачи сообщений (MPI), масштабироваться до тысяч графических процессоров. Пакет AWS и AWS ParallelCluster помогают разработчикам высокопроизводительных вычислений быстро создавать и масштабировать распределенные приложения для высокопроизводительных вычислений.

Подробнее