50%
通过微调实例大小来降低成本
10 倍
支持更高的数据负载
几周到几小时
缩短开发时间
概览
Observe.AI 利用对话智能技术,从实时和事后的客户互动中发现见解,助力企业提升联络中心座席的绩效。该公司开发并开源了 One Load Audit Framework (OLAF),该框架与 Amazon SageMaker 集成,能够自动发现机器学习服务中的瓶颈和性能问题。
Observe.AI 利用 OLAF 对 Amazon SageMaker 实例进行负载测试,将机器学习成本降低 50% 以上,将开发时间从一周缩短到几小时,并实现了按需扩展,以支持数据负载增加至原来的十倍。

机会 | 预测机器学习数据负载大小以提高效率
Observe.AI 通过人工智能(AI)驱动的员工平台优化客户体验。Observe.AI 采用专为联络中心设计的大型语言模型 (LLM),提高了联络中心座席的绩效,并利用对话智能技术从客户互动中发现见解。该平台每月处理数百万次对话,并为每个对话生成数百个推理。
随着机器学习在各行各业的应用不断增加,测试客户的机器学习服务在不同数据负载下的性能对 Observe.AI 来说变得越来越重要。Observe.AI 机器学习工程师 Aashraya Sachdeva 表示:“在新客户加入时,我们会评估我们的机器学习系统是否具备处理数据负载增加十倍的能力,这与每天处理的对话量增加十倍是相匹配的。在模型从研究阶段过渡到生产阶段时,我们的机器学习工程师和科研人员在准确预测这一能力上遇到了挑战。”
该公司寻求在生产环境中部署更大规模的机器学习模型,目的是为了提升模型的准确性。与此同时,该公司也在努力管理延迟,并控制与部署实施相关的成本。实现最佳投资回报的关键在于对基础设施进行微调,该公司需要与其现有 Amazon Web Services (AWS) 环境兼容的解决方案。
“我们正在寻找一种更直接的方法来确定最合适的基础设施,评估我们应对增加负载的准备情况,并核算向客户提供代码的相关成本。我们还想准确了解开发人员实施所需的时间。” Aashraya 解释道。

通过利用 OLAF 对 Amazon SageMaker 实例进行微调,同时维持稳定的数据输入负载,我们成功将大型语言模型的部署成本降低 50% 以上。该流程确保了最佳投资回报。
Aashraya Sachdeva
Observe.AI 机器学习高级工程师
解决方案 | 在 AWS 上构建 One Load Audit Framework
为了应对预测机器学习负载大小的挑战,Observe.AI 创建并开源了 One Load Audit Framework (OLAF)。OLAF 与 Amazon SageMaker(一项为用例构建、训练和部署机器学习模型的服务)集成,能够识别机器学习服务中的瓶颈和性能问题,并提供在静态和动态数据加载情况下的延迟和吞吐量测量。该框架还将机器学习性能测试无缝地整合进了软件开发生命周期之中,有助于进行精确的配置并实现成本节约。
Aashraya 解释说:“OLAF 为我们的机器学习工程师和科研人员提供了即插即用模型。他们只需输入自己的 AWS 凭证和 Amazon SageMaker 端点,该工具就会进行负载测试,提供特定模型或实例的延迟数据和预期误差。”
在初始构建之后,Observe.AI 将 Amazon SageMaker 的功能集成到 OLAF 中,包括多容器部署和批量推理的能力。Aashraya 补充道:“我们想了解这些新增功对成本可扩展性的影响。”接下来,该公司纳入 Amazon Simple Queue Service (Amazon SQS),这是一种用于微服务、分布式系统和无服务器应用程序的完全托管的消息队列服务。通过下载 Amazon SQS 负载跟踪数据,OLAF 用户能够观察机器学习消息进入系统的速度,据此预测数据负载的规模。Aashraya 指出:“此功能帮助我们轻松测试基于队列的阵列处理系统,这种系统目前正变得越来越流行。”
最后,Observe.AI 集成了 Amazon Simple Notification Service (Amazon SNS),这是一种适用于应用程序到应用程序以及应用程序到个人消息收发的完全托管式服务,可帮助 OLAF 用户在 Amazon SNS 中复制特定模式。
结果 | 优化成本并提高开发人员效率
Observe.AI 在 2022 年推出的 OLAF 目前已被众多机器学习工程师和研究人员积极采用,用于测试和预测数据负载。通过运用 OLAF 对 Amazon SageMaker 实例进行负载测试,Observe.AI 确定了与公司业务指标相匹配的最佳配置,有效降低了大型语言模型的成本。Aashraya 解释说:“我们的研究团队在部署那些需要特定延迟和吞吐量的大语言模型以及其他机器学习模型的过程中,发现成本超出了预期。然而,通过利用 OLAF 对 Amazon SageMaker 实例进行微调,同时维持稳定的数据输入负载,我们成功将机器学习模型的部署成本降低 50% 以上。该流程确保了最佳投资回报。”
在此之前,Observe.AI 开发人员不得不编写多个脚本并构建大量管道工作流程,导致了一系列复杂的数据传输和调试系统上线。Aashraya 指出:“得益于 OLAF 与AWS的紧密集成,开发人员现在仅需几小时就能确定合适的实例配置,而以往这项工作需要耗费一周的时间。因此,开发人员可以将更多时间用于测试数据负载和创建新功能。”
通过集成 OLAF,Observe.AI 能够扩展其服务,以适应数据负载增长至原来的十倍。该公司现在可以更轻松、更准确地进行压力测试,为增加数据负载的客户提供宝贵支持。Aashraya 解释说:“如果客户的数据负载增加一倍,我们现在可以更清楚地了解基础架构的容量。借助 OLAF 和 AWS,我们可以复制并精确地将负载增加 100%,预测可能出现的断点或数据库问题。这不仅能帮助我们更充分地为客户应对此类情况做好准备,还能带来内部成本节约和提高开发效率。”
了解详情
关于 Observe.AI
Observe.AI 是一种解决方案,它利用实时对话智能技术来提升联络中心的绩效。Observe.AI 利用强大的包含 300 亿参数的联络中心大语言模型和生成式人工智能引擎,从每次客户互动中发现有价值的见解。Observe.AI 深受各公司信赖,成为推动整个业务格局取得积极成果的重要合作伙伴。
使用的 AWS 服务
Amazon SageMaker
Amazon SageMaker 是一项完全托管的服务,它汇集了大量工具,可为任何使用案例提供高性能、低成本的机器学习 (ML)。
Amazon Simple Queue Service
借助 Amazon Simple Queue Service(SQS),您可以在软件组件之间发送、存储和接收任何规模的消息,而不会丢失消息,并且无需其他服务即可保持可用。
了解更多 »
Amazon Simple Notification Service
Amazon Simple Notification Service (Amazon SNS) 以两种方式发送通知:A2A 和 A2P。A2A 在分布式系统、微服务和事件驱动型无服务器应用程序之间进行高吞吐量、基于推送的多对多消息传递。
更多软件和互联网客户案例
行动起来
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。