Функции Amazon Polly

Простой в использовании API

Amazon Polly предоставляет API, который позволяет быстро интегрировать в приложение возможность синтеза речи. Достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Таким образом, можно немедленно начать потоковую передачу или сохранить аудиопоток в стандартном аудиоформате, например MP3.

Частота дискретизации	Образец кода
«Hi. My name is Joanna.»	from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna")

Богатый выбор голосов и языков

Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбирать подходящие голоса и распространять свои приложения с поддержкой речевых интерфейсов в разных странах. Помимо стандартных голосов и тех, что созданы по технологии нейронного преобразования текста в речь (NTTS), в Amazon Polly добавлены голоса на основе технологии Long-Form и генеративного искусственного интеллекта. Это повышает качество речи, делает ее более естественной и похожей на человеческую.

Голоса Даниэллы, Грегори, Рут, Патрика, Альбы и Рауля доступны в варианте на основе технологии Long-Form.

Голоса Рут, Мэтью, Эми, Джоанны, Даниэллы, Стивена, Оливии, Айанды, Люсии, Лупе, Леи, Миа, Вики, Бьянки, Каджала, Педро, Андреса, Серхио, Даниэля и Реми доступны в варианте на основе технологии генеративного искусственного интеллекта.

Язык или языковой вариант	Женский голос	Мужской голос

Арабский (АЛЯ)	Зейна
Арабский (страны Персидского залива)	Хала (на основе нейронной сети)	Зейд (на основе нейронной сети)
Кантонский	Хьюджин (на основе нейронной сети)
Каталанский	Арле (на основе нейронной сети)
Датский	Софи (на основе нейронной сети)	Мэдс
	Ная
Голландский	Лаура (на основе нейронной сети)	Рубен
	Лотте
Голландский / фламандский (Бельгия)	Лиза (на основе нейронной сети)
Английский (Индия)	Каял (на основе нейронной сети)
	Равина
	Адити
	Каджал (на основе генеративного ИИ)
Английский (Ирландия)	Ниам (на основе нейронной сети)
Английский (Новая Зеландия)	Ария (на основе нейронной сети)
Английский (Сингапур)	Жасмин (на основе нейронной сети)
Английский (Южная Африка)	Аянда (генеративный интеллект)
	Аянда
Английский (Великобритания)	Эми (генеративный)	Брайан (на основе нейронной сети)
	Эми (на основе нейронной сети)	Брайан (стандартный)
	Эми (стандартный)	Артур (на основе нейронной сети)
	Эмма (на основе нейронной сети)
	Эмма (стандартный)
Английский (США)	Рут (генеративный интеллект)	Патрик (Long-Form)
	Рут (Long-Form)	Грегори (Long-Form)
	Рут (на основе нейронной сети)	Грегори (на основе нейронной сети)
	Даниэль (генеративный интеллект)	Стивен (генеративный интеллект)
	Даниэль (Long-Form)	Стивен (на основе нейронной сети)
	Джоанна (генеративный интеллект)	Мэттью (генеративный интеллект)
	Джоанна (на основе нейронной сети)	Мэттью (на основе нейронной сети)
	Джоанна (стандартный)	Мэттью (стандартный)
	Салли (на основе нейронной сети)	Джастин (на основе нейронной сети)
	Салли (стандартный)	Джастин (стандартный)
	Кендра (на основе нейронной сети)	Джоуи (на основе нейронной сети)
	Кендра (стандартный)	Джоуи (стандартный)
	Кимберли (на основе нейронной сети)
	Кимберли (стандартный)
	Айви (на основе нейронной сети)
	Айви (стандартный)
Английский (Уэльс)		Герайнт
Английский (Австралия)	Оливия (генеративный интеллект)	Рассел
	Оливия (на основе нейронной сети)
	Николь
Финский	Сави (на основе нейронной сети)
Французский (Бельгия)	Изабель (на основе нейронной сети)
Французский (Канада)	Габриэль (на основе нейронной сети)	Лайам (на основе нейронной сети)
	Шанталь
Французский (Франция)	Леа (генеративный интеллект)	Мэтью
	Леа (на основе нейронной сети)	Реми (на основе генеративного ИИ)
	Леа (стандартный)	Реми
	Селин
Немецкий язык (Австрия)	Ханна (на основе нейронной сети)
Немецкий (Германия)	Вики (на основе генеративного ИИ)	Даниэль (на основе генеративного ИИ)
	Вики (на основе нейронной сети)	Даниэль (на основе нейронной сети)
	Вики (стандартный)	Ганс
	Марлен
Хинди (Индия)	Каял (на основе нейронной сети)
	Адити
Исландский	Дора	Карл
Итальянский	Бьянка (на основе нейронной сети)	Адриано
	Бьянка (стандартный)	Джорджо
	Бьянка (на основе генеративного ИИ)
	Карла
Японский	Кадзуха (на основе нейронной сети)	Такуми (на основе нейронной сети)
	Томоко (на основе нейронной сети)	Такуми (стандартный)
	Мизуки
Корейский	Соен (на основе нейронной сети)
	Чихе (на основе нейронной сети)
	Соен (стандартный)
Мандаринский	Чжиюй (на основе нейронной сети)
	Чжиюй (стандартный)
Норвежский	Ида (на основе нейронной сети)
	Лив
Польский	Ола (на основе нейронной сети)	Яцек
	Ева	Ян
	Майя
Португальский (Бразилия)	Витория (на основе нейронной сети)	Рикардо
	Витория (стандартный)	Чиаго
	Камилла (на основе нейронной сети)
	Камилла (стандартный)
Португальский (Португалия)	Инеш (на основе нейронной сети)	Криштиано
	Инеш (стандартный)
Румынский	Кармен
Русский	Татьяна	Максим
Испанский (Мексика)	Мия (на основе генеративного ИИ)
	Мия (на основе нейронной сети)	Андрес
	Мия (стандартный)	Андрес (на основе генеративного ИИ)
Испанский (Испания)	Альба (Long-Form)	Рауль (Long-Form)
	Лючия (генеративный интеллект)	Серджио
	Люсия (на основе нейронной сети)	Энрике
	Люсия (стандартный)	Серхио (на основе генеративного ИИ)
Испанский (США)	Кончита	Педро (на основе генеративного ИИ)
	Лупе (на основе генеративного ИИ)	Педро (на основе нейронной сети)
	Лупе (на основе нейронной сети)	Мигель
	Лупе (стандартный)
	Пенелопа
Шведский	Астрид
	Элин (на основе нейронной сети)
Турецкий	Филиз
	Бурджу (на основе нейронной сети)
Уэльский	Гвинет

Синхронизация речи для улучшенного визуального восприятия

Amazon Polly упрощает запрос дополнительного потока метаданных, предоставляющего информацию о том, когда произносятся конкретные предложения, слова и звуки. Используя этот поток метаданных вместе с аудиопотоком синтезированного речевого сигнала, теперь можно создавать приложения с улучшенными визуальными возможностями, такими как анимация лиц, синхронизированная с речью, или выделение слов в стиле караоке.

Подробнее об использовании речевых меток см. в документации.

Оптимизация потоковой передачи звука

С помощью Amazon Polly можно передавать пользователям через свое приложение все виды информации в режиме, близком к реальному времени. Для оптимизации полосы частот и качества звука для приложения можно выбирать различные частоты дискретизации. Amazon Polly поддерживает звуковые потоки в форматах MP3, Vorbis и несжатом формате PCM.

Частота дискретизации	Размер MP3	Размер OGG	Размер PCM
24,00 кГц Прослушать	19,31 КБ	18,11 КБ	н/п
22,05 кГц Прослушать	19,33 КБ	17,62 КБ	н/п
16,05 кГц Прослушать	16,22 КБ	15,48 КБ	100,68 КБ
8,00 кГц Прослушать	13,26 КБ	9,72 КБ	50,34 КБ

Настройка стиля речи, скорости речи, высоты тона и громкости

Amazon Polly поддерживает Speech Synthesis Markup Language (SSML), язык разметки для приложений синтеза речи стандарта W3C на основе XML, а также стандартные теги SSML, используемые для построения фраз, создания акцента и интонации. Настраиваемые теги Amazon SSML открывают уникальные возможности, например заставляют некоторые голоса звучать в стиле Newscaster. Такие гибкие возможности настройки позволяют создавать естественно звучащую речь, которая привлекает и удерживает внимание аудитории.

Подробную информацию см. в документации Amazon Polly по тегам SSML.

Образец	SSML
This is how I speak normally.	(none)
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.	<speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak>
I can speak in a higher pitched voice, or I can speak in a lower pitched voice.	<speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
I can speak really slowly, or I can speak really fast.	<speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak>
I can also speak very loudly, or I can speak very quietly.	<speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak>
I can whisper.	<speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak>

Стиль Newscaster

Amazon Polly позволяет синтезировать речь, похожую на голос теле‑ или радиодиктора. Это отличный способ читать новости или сообщать оперативные информационные сводки. Стиль Newscaster в настоящее время доступен для говорящих на американском английском (en‑US) языке голосов Мэттью и Джоанны, говорящего на британском английском (en-GB) языке голоса Эми и говорящего на американском испанском (es-US) языке голоса Лупе, созданных по технологии нейронного преобразования текста в речь (NTTS). Прослушайте аудиопример на американском английском, британском английском или американском испанском языке.

Настройка максимальной продолжительности речи

Amazon Polly позволяет автоматически настраивать скорость речи на основе максимального отведенного времени, которое можно определить с помощью новой возможности интонационных конструкций, зависящих от времени. Это может пригодиться для многих примеров использования, особенно связанных с локализацией.

Предположим, что в учебном видео присутствует речь на американском английском, и вы хотите перевести это видео на немецкий язык. Допустим также, что вы переводите текст с помощью Amazon Translate и озвучиваете его с помощью Polly. Очень важно, чтобы переведенная на немецкий язык речь попадала в соответствующие видеокадры, поэтому речь на немецком языке не может быть продолжительнее, чем речь на американском английском. Новую возможность можно использовать для упрощения процесса дублирования.

Поддержка платформ и языков программирования

Amazon Polly поддерживает все языки программирования, включенные в SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go и C++) и AWS Mobile SDK (iOS/Android). Polly также поддерживает API HTTP, поэтому пользователь может обеспечить свой собственный уровень доступа.

Синтез речи с помощью API, консоли или командной строки

С Amazon Polly можно работать, используя API Polly (и различных SDK для конкретных языков), Консоль управления AWS и интерфейс командной строки AWS. Пользователь получает полный контроль над всеми возможностями Amazon Polly независимо от того, каким образом выполняется управление сервисом – с помощью консоли, API или интерфейса командной строки.

Пользовательский лексикон

С помощью пользовательского лексикона (словарей) в Amazon Polly можно изменить произношение отдельных слов, таких как названия компаний, аббревиатур, иностранных слов и неологизмов (например, «ROTFL», «C’est la vie», когда этот текст произносит не французский голос). Чтобы настроить произношение, необходимо загрузить файл XML с лексическими записями. Например, можно настроить произношение «Nguyen», предоставив фонему с помощью следующего фрагмента кода XML:

Nguyen (до)

Nguyen (после)

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Фирменный голос

«Фирменный голос» – это специальная программа, в рамках которой вы сотрудничаете с командой Amazon Polly, чтобы создать для своей организации эксклюзивный голос для нейронного преобразования текста в речь (NTTS). Фирменный голос позволяет придать свои продуктам и приложениям уникальное звучание для широкого диапазона вариантов использования, включая интеграцию Amazon Connect и Alexa Skills. Мы сотрудничаем с вами в течение всего процесса, чтобы определить нужный характер, найти актера или актрису и записать их голос, а затем создать и обучить модель воспроизведения голоса. После этого голос становится доступен вашим аккаунтам AWS.

Прослушать фирменный голос Национального банка Австралии »

Прослушать фирменный голос Национального банка Новой Зеландии »

Если вас интересует создание фирменного голоса с помощью Polly, обратитесь к менеджеру аккаунтов AWS или свяжитесь с нами для получения дополнительной информации.

Интеграция контакт-центров

Amazon Connect

Amazon Polly по умолчанию интегрируется с Amazon Connect, облачным решением AWS для контакт-центров, которое используется для настройки контакт-центра и управления им, а также для надежного привлечения клиентов в любых масштабах. Дополнительную информацию о в вашу интерактивную систему голосового ответа см. в разделе об использовании голосов Polly в Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX – это облачное решение контакт-центра, в котором унифицированы интерфейс клиента и оператора для множества каналов, например для общения по телефону, в SMS-сообщениях и чатах. Вы можете развертывать свои голосовые боты с использованием любого существующего голоса Polly. Подробные сведения см. в документации Genesys Cloud.

SDK для Amazon Chime

Amazon Chime SDK – это набор компонентов для связи в режиме реального времени. Разработчики могут пользоваться им для быстрого добавления в собственные интернет-приложения и приложения для мобильных устройств и телефонии возможностей совершать аудио- и видеовызовы, а также совместно использовать экран. Amazon Chime SDK по умолчанию поддерживает интеграцию с Amazon Polly, что упрощает процесс создания приложений для преобразования текста и чисел в естественную речь и автоматического воспроизведения результата для собеседника в телефонном разговоре.

Аналитика AWS Contact Center (CCI)

Amazon Polly используется несколькими партнерами AWS CCI, поэтому вы можете эффективно создавать виртуальных агентов службы поддержки клиентов, работающей по принципу самообслуживания, информационных ботов или ботов приложений. Среди партнеров Amazon Polly* – Genesys, Vonage и Accenture. Чтобы узнать больше о партнерах, посетите страницу AWS CCI и страницу партнеров AWS CCI.

Service

Начать работу с бесплатным аккаунтом

Регистрация

Pricing

Перейти на страницу цен

Ознакомьтесь с ценами

Блог

Узнайте, как настроить Amazon Polly

Читать блог

Поговорите со специалистом

Начало работы с приложением Цепочка поставок AWS

Выберите настройки файлов cookie

Возможности Amazon Polly

Простой в использовании API

Богатый выбор голосов и языков

Синхронизация речи для улучшенного визуального восприятия

Оптимизация потоковой передачи звука

Настройка стиля речи, скорости речи, высоты тона и громкости

Стиль Newscaster

Настройка максимальной продолжительности речи

Поддержка платформ и языков программирования

Синтез речи с помощью API, консоли или командной строки

Пользовательский лексикон

Фирменный голос

Интеграция контакт-центров

Начать работу с бесплатным аккаунтом

Перейти на страницу цен

Узнайте, как настроить Amazon Polly

Поговорите со специалистом

Выберите настройки файлов cookie

Возможности Amazon Polly

Простой в использовании API

Богатый выбор голосов и языков

Синхронизация речи для улучшенного визуального восприятия

Оптимизация потоковой передачи звука

Настройка стиля речи, скорости речи, высоты тона и громкости

Стиль Newscaster

Настройка максимальной продолжительности речи

Поддержка платформ и языков программирования

Синтез речи с помощью API, консоли или командной строки

Пользовательский лексикон

Фирменный голос

Интеграция контакт-центров

Начать работу с бесплатным аккаунтом

Перейти на страницу цен

Узнайте, как настроить Amazon Polly

Поговорите со специалистом

Прекращение поддержки Internet Explorer