面向软件公司的 AWS 解决方案 > 资源 > 巧用 AssemblyAI 和 AWS 化音频数据为见解

巧用 AssemblyAI 和 AWS 化音频数据为见解

作者:AWS 编辑团队 | 2024 年 8 月 22 日 | 思想领导力

从电话通话、网络会议、播客、网络研讨会到视频,音频数据无处不在。人工智能的诞生让企业能够以前所未有的方式从数据中挖掘见解。AssemblyAI 从事机器学习(ML)模型开发,从而为语音数据提供准确的语音转文本,此外还能提供讲话人检测、情感分析、章节检测、个人身份信息(PII)删节等功能。该公司高级软件工程师 Ben Gotthold 介绍道:“我们专注于开发能够以超人能力理解人类语音的机器学习模型。简而言之,我们拥有完整的人工智能系统,让客户能够从音频数据中挖掘出最大价值。”

由机器学习驱动的音频创新

AssemblyAI 提供各种不同的机器学习模型,以支持各种不同应用场景的需要。例如,播客或视频平台可以使用语音识别、讲话人分解和摘要模型来提高其内容的可搜索性。此外还可使用内容审核和主题检测模型来分类和标记敏感或有害内容。个人身份信息删节、关键词检测、情感分析和实体检测模型可用于联络中心的对话智能解决方案,或用于分析销售电话数据,帮助经理更快地培训新团队成员。

为确保有效运营并提供卓越的客户服务,AssemblyAI 需要一种能够满足三个关键领域要求的架构:

  1. 可扩展性:由于每天会收到数以百万计的请求,AssemblyAI 需要能够灵活扩展以满足需求、优化资源使用情况并控制成本。
  2. 易于部署和迭代:AssemblyAI 需要一种能够尽可能简单地部署和持续改进机器学习模型的架构。
  3. 安全性与合规性:AssemblyAI 希望用于构建架构的服务和技术能够保护数据并满足全球客户多样化的合规要求。

AssemblyAI 与 Amazon Web Services 携手构建了一种可满足所有这些要求的架构。

在 AssemblyAI 架构内直接化音频为见解

客户需要首先将音频数据上传到 AssemblyAI API,也可使用 Amazon Simple Storage Service(Amazon S3)等云对象存储服务提交对该数据的引用。Gotthold 解释说:“客户向我们的 API 提交数据后,我们将下载该数据并进行转码,相关数据际存储在 Amazon S3 中。然后,我们可以根据客户的应用场景将数据发送到各种不同的模型,包括讲话人标记和情感分析等。”

客户的请求得到验证并记录了所需的特征类型后,将进入 AssemblyAI 编排工具,也就是 Gotthold 所谓的“操作大脑”中。 该编排工具通过推理管道来决定要调用的具体模型以及调用的顺序。该管道由多项 AWS 服务组成,包括:Amazon Simple Queue Service(Amazon SQS)Amazon Elastic Container Service(Amazon ECS)和 Amazon S3 等。

该编排工具会将相关消息发送到 Amazon SQS。Amazon SQS 是一项适用于微服务、分布式系统和无服务器应用程序的完全托管式消息队列服务。这时,相关机器学习模型将在 Amazon ECS 上运行。Amazon ECS 是一种可让 AssemblyAI 高效部署、管理和扩展其模型的容器编排服务。

“我们已经部署了数十个模型,并持续对其进行迭代、部署新版本和新模型”,Gotthold 说道。  在 Amazon ECS 中,AssemblyAI 的机器学习模型会根据客户需求在需要时纵向扩展和缩减。

优化资源使用情况并控制成本

AssemblyAI 还使用 Amazon CloudWatch 来监控和响应性能变化并优化资源的使用情况。Gotthold 介绍道:“请求在随时传入,每天多达数百万,我们在 CloudWatch 中记录这些请求。根据编排工具内部的决策引擎,我们知道将需要哪些模型以及将以什么顺序调用。这样,通过使用队列深度和其他自定义指标等信号,我们可以按照刚好需要的数量预置模型 Worker 节点。与不太常用的模型相比,常用模型纵向扩展和缩减的速度将会更快。”

“一个典型例子是客户需要标记讲话人,标记谁在讲话、何时在讲话等,由于我们知道这将在完成音频转文本后进行,因此可以预先扩展该服务,以便在需要时提供相应的容量。” 除可以提高效率外,优化资源的使用情况还可以节省成本。Gotthold 说:“一般而言,在 GPU 上运行这些模型的成本非常高昂,因此我们需要通过灵敏的扩缩来控制成本。”

完成客户的请求后,将通过 Amazon Simple Notification Service(Amazon SNS)AWS Lambda 发送一条通知。后者是一项无服务器事件驱动的计算服务,可在转录准备就绪时通知客户。

重视数据安全和负责任使用

AssemblyAI 与全球客户合作,必须遵守严格的合规和数据安全标准。“有很多的非功能要求,例如合规等等。我们通过了 SOC 2 Type 2 认证,高度重视遵循有关数据存储的最佳实践”,Gotthold 介绍道。

AWS 以建设安全性领先的全球云基础设施为宗旨,以满足构建、迁移和管理应用程序和工作负载的需要。借助 Amazon ECS 和 Amazon S3 等 AWS 服务,用户能够安全地管理数据,检测潜在的可疑行为,尽可能降低风险。正如 Gotthold 所解释,“我们在 Amazon S3 执行严格的生命周期政策,因此仅在对我们的编排工具和机器学习管道有用的期限内保留数据。”

赋能音频数据创新

AssemblyAI 不断代表客户进行创新,以新的机器学习模型为客户助力。该公司于 2023 年发布了将大型语言模型(LLM)应用于语音数据的框架 LeMUR。只需几行代码,即可使用 LeMUR 同时为多个音频文件创建自定义摘要,使用自然语言提示询问有关其数据的问题,利用会议录音总结行动项目等。

通过在 AWS 上构建架构,AssemblyAI 可以继续创建像 LeMUR 这样的创新解决方案,发掘化音频数据为见解的新方法。同时,该公司还拥有多种有关可扩展性、部署方便性和安全性的功能,可以用来有效地满足需求并为客户提供卓越的服务。

详细了解 AWS 如何让软件或科技公司自由地迁移、创新和扩展。立即联系我们以开始使用。