Amazon Polly – Trình tạo giọng nói AI

Triển khai giọng nói con người tự nhiên, chất lượng cao ở hàng chục ngôn ngữ

Amazon Polly là gì?

Amazon Polly là một dịch vụ được quản lý toàn phần có khả năng tạo giọng nói theo yêu cầu, giúp chuyển đổi bất kỳ văn bản nào thành luồng âm thanh. Sử dụng công nghệ học sâu để chuyển đổi bài viết, trang web, tài liệu PDF và tính năng chuyển văn bản thành giọng nói (TTS) khác. Polly cung cấp hàng chục giọng nói chân thực thuộc nhiều ngôn ngữ khác nhau để giúp bạn xây dựng các ứng dụng kích hoạt bằng giọng nói có khả năng thu hút và chuyển đổi. Đáp ứng nhu cầu đa dạng về ngôn ngữ, khả năng tiếp cận và học tập của người dùng trên khắp các khu vực địa lý và thị trường. Mạng nơ-ron mạnh mẽ và công cụ giọng nói tạo sinh hoạt động trong nền, giúp tổng hợp giọng nói cho bạn. Tích hợp API Amazon Polly vào các ứng dụng hiện có của bạn để nhanh chóng sẵn sàng sử dụng giọng nói. 

Trường hợp sử dụng

Bổ sung giọng nói cho các ứng dụng có người dùng trên toàn cầu, chẳng hạn như nguồn cấp dữ liệu RSS, trang web hoặc video.

Tìm hiểu thêm về tạo giọng nói

Lưu trữ và phát lại đoạn tiếng nói đầu ra do Amazon Polly tạo để nhắc người gọi qua các hệ thống trả lời giọng nói tương tác hoặc tự động.

Tìm hiểu thêm về chuyển văn bản thành giọng nói (TTS) bằng nơ-ron

Sử dụng SSML, một ngôn ngữ đánh dấu dựa trên XML chuẩn W3C dành cho các ứng dụng tổng hợp giọng nói, để hỗ trợ các thẻ SSML phổ biến dành cho ngắt nghỉ, nhấn mạnh và ngữ điệu.

Tìm hiểu thêm về SSML

Khả năng

Amazon Polly có nhiều khả năng, bao gồm một số khả năng được liệt kê dưới đây

Giọng nói chân thực

Cung cấp trải nghiệm người dùng đàm thoại trong thời gian phản hồi nhanh và ổn định

Khi yêu cầu đầu ra của Amazon Polly, bạn có thể chọn từ hàng chục giọng nói chân thực và nhiều ngôn ngữ khác nhau. Mỗi giọng nói được tạo ra nhờ làm việc với người bản ngữ, với các biến thể giọng nói ngay cả trong cùng một ngôn ngữ. Hầu hết các ngôn ngữ bao gồm một hoặc nhiều giọng nam và nữ, vì vậy bạn có thể chọn giọng phù hợp nhất với trường hợp sử dụng của mình.

Người phụ nữ đứng trên cầu, tay cầm điện thoại và mặc áo khoác màu vàng

Đầu ra có thể tùy chỉnh

Tùy chỉnh và kiểm soát đầu ra giọng nói khi cần

Amazon Polly cho phép bạn tạo đầu ra văn bản thành giọng nói tùy chỉnh để thu hút và giữ lại sự chú ý của khán giả. Sử dụng từ vựng tùy chỉnh để sửa đổi cách phát âm của từ viết tắt, tên công ty, thuật ngữ nội bộ hoặc bất kỳ từ nào khác mà bạn muốn. Thẻ Ngôn ngữ đánh dấu tổng hợp giọng nói (SSML) của Amazon Polly cũng cho phép bạn điều chỉnh điểm nhấn, ngữ điệu, cụm từ và phong cách. Tạo đầu ra AI bằng giọng nói phù hợp nhất cho hoạt động kinh doanh của bạn.

Hình ảnh những người đàn ông đang làm việc trong văn phòng

Sức mạnh AI tạo sinh

Truy cập các khả năng AI tạo sinh tích hợp sẵn với chi phí thấp

Amazon Polly hỗ trợ nhiều công cụ giọng nói mà bạn có thể chọn để chuyển đổi văn bản thành giọng nói. Công cụ này triển khai một bộ chuyển đổi tỷ tham số để tạo ra giọng nói theo cách gia tăng, có thể phát trực tuyến. Trình tạo giọng nói AI này tạo ra lời nói tổng hợp có sự quyết đoán, gắn kết về mặt cảm xúc và có tính thông tục cao, tương tự như giọng nói thực sự của con người.

Các doanh nhân trẻ đang làm việc cùng nhau trong dự án mới

Khả năng kiểm soát và bảo mật

Lưu trữ và tái phân phối lời nói một cách an toàn ở các định dạng tiêu chuẩn

Lưu trữ đầu ra văn bản thành giọng nói của bạn trong các tệp âm thanh tiêu chuẩn như MP3 và OGG để tái phân phối, phân tích, lưu trữ hoặc cho bất kỳ trường hợp sử dụng nào khác mà không mất thêm chi phí. Lưu trữ các tệp của bạn vào bộ nhớ đệm để truy xuất nhanh hơn khi cần. Tính bảo mật, độ tin cậy và quyền riêng tư cho nội dung của bạn là ưu tiên hàng đầu của AWS. Amazon Polly không giữ lại nội dung văn bản đã gửi của bạn.

Hình ảnh bàn tay của một người đang làm việc trên máy tính

Câu hỏi thường gặp

Có. Amazon Polly cung cấp dịch vụ chuyển văn bản thành giọng nói bằng AI miễn phí trong vòng một năm sau khi bạn đăng ký – lên đến ngưỡng sử dụng tối thiểu. Ngưỡng sử dụng có thể từ 100 nghìn ký tự đến 5 triệu ký tự tùy thuộc vào công cụ giọng nói mà bạn chọn. Để biết thêm chi tiết, hãy xem Định giá Amazon Polly.
Amazon Polly cung cấp hơn 100 giọng nói nam và nữ với hơn 40 ngôn ngữ và biến thể ngôn ngữ. AWS liên tục cập nhật và bổ sung cho tính năng giọng nói của chúng tôi.
Amazon Polly sản xuất MP3, ogg và các định dạng tệp âm thanh tiêu chuẩn khác được lấy mẫu ở 8.000 Hz, 16.000 Hz và 22.050 Hz.
Câu trả lời là Có. Hiện tại, Alexa sử dụng công nghệ Polly để cung cấp giải pháp chuyển văn bản thành lời nói. Tuy nhiên, giọng nói của Alexa được xây dựng dành riêng cho Alexa và không có sẵn bên ngoài.
Không. Amazon Polly là một dịch vụ AI trên đám mây được quản lý toàn phần. Bạn giao tiếp với dịch vụ này bằng cách sử dụng API trong mã của mình. Bạn không thể tải xuống hoặc triển khai mã nguồn Amazon Polly trong môi trường của mình. Tuy nhiên, bạn có thể sử dụng Amazon Polly miễn phí (lên tới giới hạn ngưỡng sử dụng được xác định trước) trong vòng 12 tháng kể từ khi bắt đầu. Để biết thêm chi tiết, hãy xem Định giá Amazon Polly.

Khám phá thêm về AWS