亚马逊AWS官方博客

Amazon Transcribe 现已推出


AWS re:Invent 2017 上,我们通过私有预览发布了 Amazon Transcribe。今天,我们高兴地向所有开发人员推出 Amazon Transcribe。Amazon Transcribe 是一种自动语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加语音转文本功能。我们通过预览中迭代客户的反馈,对 Amazon Transcribe 进行了一些增强。

GA 中的新 Amazon Transcribe 功能

首先,我们将 SampleRate 参数设置为可选,这意味着您只需知道介质的文件类型以及输入语言即可。我们已经增添了两种新功能 – 能够在音频中区分多位发言者以提供更加清晰易懂的文稿(“发言者及时间”),以及有助于提高产品名称、行业特有术语或个体名称的语音识别准确度的定制词汇表。让我们来看下面的简洁示例,以重新了解 Amazon Transcribe 的工作原理。我将在 S3 存储桶中转换此音频

import boto3
transcribe = boto3.client("transcribe")
transcribe.start_transcription_job(
    TranscriptionJobName="TranscribeDemo",
    LanguageCode="en-US",
    MediaFormat="mp3",
    Media={"MediaFileUri": "https://s3.amazonaws.com/randhunt-transcribe-demo-us-east-1/out.mp3"}
)

这将输出类似下文的 JSON(我已去掉了大多数回应),识别出了每位发言者:

{
  "jobName": "reinvent",
  "accountId": "1234",
  "results": {
    "transcripts": [
      {
        "transcript": "Hi, everybody, i'm randall ..."
      }
    ],
    "speaker_labels": {
      "speakers": 2,
      "segments": [
        {
          "start_time": "0.000000",
          "speaker_label": "spk_0",
          "end_time": "0.010",
          "items": []
        },
        {
          "start_time": "0.010000",
          "speaker_label": "spk_1",
          "end_time": "4.990",
          "items": [
            {
              "start_time": "1.000",
              "speaker_label": "spk_1",
              "end_time": "1.190"
            },
            {
              "start_time": "1.190",
              "speaker_label": "spk_1",
              "end_time": "1.700"
            }
          ]
        }
      ]
    },
    "items": [
      {
        "start_time": "1.000",
        "end_time": "1.190",
        "alternatives": [
          {
            "confidence": "0.9971",
            "content": "Hi"
          }
        ],
        "type": "pronunciation"
      },
      {
        "alternatives": [
          {
            "content": ","
          }
        ],
        "type": "punctuation"
      },
      {
        "start_time": "1.190",
        "end_time": "1.700",
        "alternatives": [
          {
            "confidence": "1.0000",
            "content": "everybody"
          }
        ],
        "type": "pronunciation"
      }
    ]
  },
  "status": "COMPLETED"
}

定制词汇表

现在,如果我需要与同事进行更复杂的技术讨论,我可以创建定制词汇表。定制词汇表指定为一系列传递到 CreateVocabulary API 的字符串,您可以将其名称纳入 StartTranscriptionJob API 调用中的 Settings ,以在转录作业中包含您的定制词汇表。单个词汇表的大小不能超过 50KB,每个短语长度必须小于 256 个字符。如果我想转录我的中学 AP Biology 班的记录,我可以像下面这样在 Python 中创建定制词汇表:

import boto3
transcribe = boto3.client("transcribe")
transcribe.create_vocabulary(
LanguageCode="en-US",
VocabularyName="APBiology"
Phrases=[
    "endoplasmic-reticulum",
    "organelle",
    "cisternae",
    "eukaryotic",
    "ribosomes",
    "hepatocyes",
    "cell-membrane"
]
)

我随后可以按名称 APBiology 查阅此词汇表,并根据在文稿中可能找到的错误通过编程方式进行更新。

现已推出

目前,Amazon Transcribe 已在美国东部(弗吉尼亚北部)美国西部(俄勒冈)美国东部(俄亥俄)欧洲(爱尔兰)推出。Transcribe 的免费套餐在前 12 个月中可为您提供每月 60 分钟的免费文稿,此后则按每秒音频 0.0004 美元的费率现付,最低收费时长为 15 秒。

与其他工具和服务结合后,我认为 Transcribe 为应用程序开发全面打开了机会的大门。我非常高兴看到我们的技术开发人员构建这种新服务。

Randall