简单易用的 API

Amazon Polly 提供一个 API,借助此 API,您可以将语音合成快速集成到应用程序中。您只需将要转换成语音的文本发送到 Amazon Polly API,Amazon Polly 便会立即将音频流返回到您的应用程序中。您的应用程序可以直接开始对音频进行流式处理,并且您也可以将其存储为 MP3 等标准音频文件格式。

采样率 示例代码
"Hi.My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi.My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

广泛的语音和语言选择

Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在多个国家/地区分发具有语音功能的应用程序。除了标准语音和神经文本转语音(NTTS)声音外,Amazon Polly 现在还提供长段语音和生成式语音,可改善语音质量,使声音更自然,更类似人声。

Danielle、Gregory 和 Ruth 是美式英语声音,有长段语音和神经变体形式可供选择。Ruth、Matthew 和 Amy 还提供生成式变体形式。

所有 Polly 的声音
语言或语言变体
     
阿拉伯语 — MSA Zeina  
阿拉伯语 - 海湾地区 Hala(神经) Zayd(神经)
粤语 Hiujin(神经)  
加泰罗尼亚语 Arlet(神经)  
捷克语 Jitka(神经)  
丹麦语 Sofie(神经) Mads
  Naja  
荷兰语 Laura(神经) Ruben
  Lotte  
荷兰语(佛兰德语)— 比利时 Lisa(神经)  
英语 — 印度 Kajal(神经)  
  Raveena  
  Aditi  
英语 — 爱尔兰 Niamh(神经)  
英语 — 新西兰 Aria(神经)  
英语 — 南非 Ayanda  
英语 — 英国

Amy(生成式) Brian(神经)
  Amy(神经)

Brian(标准)

  Amy(标准) Arthur(神经)
  Emma(神经)  
  Emma(标准)  
英语 — 美国

Ruth(生成式) Gregory(长段语音)
  Ruth(长段语音) Gregory(神经)
  Ruth(神经) Stephen(神经)
  Danielle(长短语音) Matthew(生成式)
  Joanna(神经) Matthew(神经)
  Joanna(标准) Matthew(标准)
  Danielle(神经) Justin(神经)
  Salli(神经) Justin(标准)
  Salli(标准) Joey(神经)
  Kendra(神经) Joey(标准)
  Kendra(标准)  
  Kimberly(神经)  
  Kimberly(标准)  
  Ivy(神经)  
  Ivy(标准)  
英语 — 威尔士   Geraint

英语 — 澳大利亚

Olivia(神经) Russell
  Nicole  
芬兰语 Suvi(神经)  
法语 — 比利时 Isabelle(神经)  
法语 — 加拿大 Gabrielle(神经) Liam(神经)
  Chantal  
法语 — 法国 Léa(神经) Mathieu
  Léa(标准) Rémi
  Céline  
德语 — 奥地利 Hannah(神经)  
德语 — 德国 Vicki(神经) Daniel(神经)
  Vicki(标准) Hans
  Marlene  
德语 — 瑞士 Sabrina(神经)  
印地语 — 印度 Kajal(神经)  
  Aditi  
冰岛语 Dóra Karl
意大利语 Bianca(神经) Adriano
  Bianca(标准) Giorgio
  Carla  
日语 Kazuha(神经) Takumi(神经)
  Tomoko(神经)
Takumi(标准)
  Mizuki  
韩语 Seoyeon (Neural)  
  Seoyeon(标准)  
普通话 知语(神经)  
  知语(标准)  
挪威语 Ida(神经)  
  Liv  
波兰语 Ola(神经) Jacek
  Ewa Jan
  Maja  
葡萄牙语 — 巴西 Vitória(神经) Ricardo
  Vitória(标准) Thiago
  Camila(神经)  
  Camila(标准)  
葡萄牙语 — 葡萄牙 Inês(神经) Cristiano
  Inês(标准)  
罗马尼亚语 Carmen  
俄语 Tatyana Maxim
西班牙语 — 墨西哥 Mia(神经) Andrés
  Mia(标准)  
西班牙语 — 西班牙 Elena(长段语音) Guillermo(长段语音)
  Lucia(神经) Sergio
  Lucia(标准) Enrique
  Conchita  
西班牙语 — 美国 Lupe(神经) Pedro(神经)
  Lupe(标准) Miguel
  Penélope  
瑞典语 Astrid  
  Elin(神经)
 
土耳其语 Filiz  
  Burcu(神经)  
威尔士语 Gwyneth  

同步语音,实现增强的视觉体验

Amazon Polly 让用户可以轻松请求额外的元数据流,其中带有与语句、文字或声音的发出时间相关的信息。将此元数据流与合成语音音频流配合使用,您现在能够在应用程序中提供增强的视觉体验,例如语音同步面部动画或者卡拉 ok 式文字突出提示。

请参阅文档以便了解有关如何使用语音标记的更多信息。 

优化流音频

借助 Amazon Polly,您可以通过应用程序近乎实时地将各种信息流式传输给用户。Amazon Polly 还提供多种采样率供您选择,便于您为应用程序优化带宽和音频质量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音频流格式。

采样率 MP3 大小 OGG 大小
PCM 大小
24.00 kHz 收听 19.31kB 18.11kB 不适用
22.05 kHz 收听
19.33kB 17.62kB 不适用
16.05 kHz 收听 16.22kB 15.48kB

100.68kB

8.00 kHz 收听 13.26kB 9.72kB 50.34kB

调整说话风格、语速、音调和音量

Amazon Polly 支持语音合成标记语言 (SSML),它是一种基于 XML 的 W3C 标准标记语言,适用于语音合成应用程序,且支持使用通用 SSML 标签进行断句、重音和语调。自定义 Amazon SSML 标签提供了独特的选项,例如,能够以新闻播音员说话风格发出某些声音。这种灵活性能够帮助您创建逼真的语音,从而吸引并维持听众的注意力。

要了解更多信息,请参阅关于 SSML 标签的 Amazon Polly 文档

示例 SSML
这是我正常的说话方式 (无)
我也可以用新闻播音员风格说话,就好像我在读一篇新闻文章或发表简报。 <speak><amazon:domain name="news">我也可以用新闻播音员风格说话,就好像我在读一篇新闻文章或发表简报。</amazon:domain></speak>
我能用较高的音调说话,也能用较低的音调说话 <speak>我能用<prosody pitch="high">较高的音调说话</prosody>,也能用<prosody pitch="low">较低的音调说话</prosody></speak>
我可以说得很慢,也可以说得很快 <speak>我可以说得<prosody rate="x-slow">很慢</prosody>,也可以说得<prosody rate="x-fast">很快</prosody></speak>
我还能大声说,也能小声说 <speak>我还能<prosody volume="x-loud">大声说</prosody>,也能<prosody volume="x-soft">小声说</prosody>。</speak>
我能悄声说话。 <speak>我有一个秘密,我将悄声告诉你。<amazon:effect name="whispered">'<prosody rate="x-slow"><prosody volume="loud">我不是人类。</prosody></prosody></amazon:effect>你相信吗?</speak>

新闻播音员说话风格

Amazon Polly 可以用来合成语音,就好像它是由电视或电台新闻播音员发出的声音。这可以是阅读新闻文章或发表简报更新的好方式。新闻播音员风格目前适用于使用神经文本转语音的美国英语 (en-US) Matthew 和 Joanna 语音、英国英语 (en-GB) Amy 和美国西班牙语 (es-US) Lupe 语音。倾听美国英语英国英语美国西班牙语的音频样本。

调整语音最长持续时间

您可以借助 Amazon Polly 根据使用时间驱动韵律功能定义的最大分配时间量自动调整语速。此功能对于许多使用案例都大有裨益,尤其是在本地化方面。

例如,假设您的培训视频语音是美式英语,您希望将视频本地化为德语。如果您使用 Amazon Translate 翻译文本并使用 Polly 添加语音,那么重要的是,确保本地化后的德语语音与对应的视频帧保持一致,德语语音不能长于美式英语的语音。使用此功能,您可以更轻松地完成配音工作。

平台和编程语言支持

Amazon Polly 支持 AWS 软件开发工具包中包含的所有编程语言 (Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++) 以及 AWS 移动软件开发工具包中包含的所有编程语言 (iOS/Android)。Polly 还支持 HTTP API,因此您可以实施自己的访问层。

通过 API、控制台或命令行进行语音合成

Amazon Polly 可通过 Polly API (和各种采用特定语言的软件开发工具包)、AWS 管理控制台和 AWS 命令行界面 (CLI) 进行访问。不论您是通过控制台、API 还是 CLI 使用 Amazon Polly,您都可以全面控制它的各项功能。

自定义词典

借助 Amazon Polly 的自定义词典或词汇,您可以修改特定词语的发音,如公司名称、首字母缩略词、外来词和新词 (例如,使用非法语语音说话时的“ROTFL”、“C’est la vie”)。要自定义这些发音,您需要上传包含词条的 XML 文件。例如,您可以使用以下 XML 提供一个音位,从而自定义“Nguyen”的发音。

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

品牌之声

品牌之声是一个定制项目,您将与 Amazon Polly 团队合作,为您的组织量身打造专属神经文本转语音 (NTTS) 语音。借助品牌之声功能,您可以在各种使用案例中(包括 Amazon Connect 和 Alexa Skills 集成),以独特的声音让您的产品和应用程序脱颖而出。我们将全程与您一起确定角色,确定男女录音人员并录制他们的声音,最后构建并训练模型来制作专属语音。之后,您的 AWS 账户 ID 便可以使用该语音。

聆听澳大利亚国家银行的品牌之声 »

聆听新西兰银行的品牌之声 »

如果您对使用 Polly 打造品牌之声感兴趣,请联系您的 AWS 客户经理或联系我们了解更多信息。

联系中心集成

Amazon Connect

Amazon Polly 与 Amazon Connect 原生集成,后者是 AWS 的基于云的联系中心解决方案,您可以使用它来设置和管理客户联系中心,并提供任何规模的可靠客户参与。要了解有关向对话交互式语音响应系统添加文本转语音提示的详情,请参阅如何在 Amazon Connect 中使用 Polly 语音

Genesys Cloud CX

Genesys Cloud CX 是一种云联系中心解决方案,可通过电话、文本和聊天等多种渠道统一客户和座席体验。您可以使用任何现有的 Polly 语音部署语音机器人。有关更多信息,请参阅 Genesys Cloud 文档

Amazon Chime SDK

Amazon Chime SDK 是一组实时通信组件,开发人员可以使用这些组件快速为自己的 Web 或移动应用程序添加音频通话、视频通话和屏幕共享功能。 Amazon Chime SDK 支持与 Amazon Polly 原生集成,从而让构建者能够轻松地创建应用程序,以将文本和数值数据转化为逼真的语音,并自动将输出播放给来电人。

AWS Contact Center Intelligence (CCI)

多个 AWS CCI 合作伙伴使用 Amazon Polly,因此可以无缝创建自助式客户服务虚拟座席、信息机器人或应用程序机器人。Amazon Polly 合作伙伴包括 Genesys、Vonage 和 Accenture。要了解有关合作伙伴的详情,请访问 AWS CCIAWS CCI 合作伙伴页面