亚马逊AWS官方博客

PBS 通过 Amazon Personalize 为观众带来量身定制的体验

PBS-Logo-2022

Public Broadcasting Service(PBS)希望构建一个智能推荐引擎(SRE,Smart Recommendation Engine),使其能够根据多种因素向观众提供高质量的推荐内容。

为了确保成功,PBS 决定找一家具备人工智能(AI)和机器学习(ML)专业知识并且对 Amazon Web Services(AWS)平台有深厚了解的云咨询公司进行合作。

作为 AWS 核心级服务合作伙伴ClearScale 具备包括机器学习、非营利组织以及数据和分析在内的 11 项 AWS 能力,非常适合 PBS,可以很好地满足该非营利组织在流媒体时代大幅增强观众体验的需求。

PBS 产品管理总监 Mikey Centrella 表示:“我们与 ClearScale 合作建立并配置了我们的初始解决方案和数据管道。我们需要更快地利用洞察,并能够在数个月内推出新服务,而不是耗时数年。他们的专家设置了 AWS Cloud 配置和相关服务,以便我们使用 Amazon Personalize,为我们节省了大量精力和数千小时的工程时间。”

PBS 是一家总部位于弗吉尼亚州阿灵顿的非营利组织,成立于 1969 年,面向全美超过 1 亿电视观众和超过 3200 万网民,播放教育、新闻和娱乐节目。PBS 目前拥有大约 330 个成员电视台,向美国全境 50 个州、波多黎各、美属维尔京群岛、关岛和美属萨摩亚分发高质量的内容。

挑战

与当今许多主流媒体和流媒体平台一样,PBS 希望将整体用户体验提升到一个新的水平。该组织希望根据多种因素,如作品之间的深度关联、当前流行趋势、用户行为模式等,向观众提供更好的应用内节目推荐,以提高观众的兴趣和长期忠诚度。

从表面上看,创建这样的推荐引擎似乎很复杂。然而现实情况是,构建这些引擎既不需要具备数据科学专业知识,也不需要精通 AI/ML。公司只需要找到合适的云原生工具和服务组合,然后将数据馈送到其中即可。采用合适的工具包,开发这些服务无需花费数年时间。

幸运的是,AWS 提供了托管式 AI/ML 解决方案,这样工程师便能够利用预建模型,并且以自动化的方式完成与创建、训练和微调这些模型相关的许多困难工作。真正的难题在于,公司需要知道如何尽可能地利用云提供的功能,尤其是在世界瞬息万变的情况下。

正因如此,PBS 联系了 MLOps 领域的领导者 ClearScale,该公司具备 PBS 所需的技术专业知识,能够构建理想的推荐系统并维护其长期运维。PBS 和 ClearScale 共同决定采用构建在 Amazon Personalize 之上并由 AWS 提供支持的解决方案。

ClearScale-PBS-Personalize-1

图 1 – 主架构图。

为了打造出能够真正实现差异化优势的推荐系统,除了专家实施指导外,PBS 还需要最新、最先进的云技术。

为了顺利完成 PBS 的推荐系统项目,ClearScale 制定了详细的路线图,包括数据运维、机器学习运维和演示用户界面。

数据运维

首先,ClearScale 和 PBS 共同确定使用哪些数据来源向未来的 ML 模型馈送数据:

  • PBS Media Manager
  • PBS 的用户配置文件
  • Google Analytics 元数据

PBS Media Manager 是一个内容管理系统,PBS 成员电台使用该系统在不同的平台上发布和共享作品。Media Manager 还包含丰富的元数据,例如作品的发布日期、标签和作者,并附带有规则,用于确定在搜索结果中向观众显示哪些内容。

例如,Media Manager 在给出推荐之前会考虑观众的年龄或地点。这样,年幼的孩子就不会意外地看到面向成年观众的作品,系统也不会向一个地区的观众推荐与他们相距过远的其他地区的新闻报道。

PBS 用户配置文件包含有价值的观众个体详细信息,例如他们之前与 PBS 应用程序的互动、他们的观看列表、观看时间和观看记录。因此,用户配置文件包含了用户喜欢观看内容的最明显证据。

ClearScale 和 PBS 还决定整合来自 Google Analytics 的背景信息,以更全面地了解谁在观看 PBS 内容以及在哪里观看。Google Analytics 拥有有关观众的非敏感数据,可用来推断他们的观看偏好。

该平台还可以揭示人们在观看内容时使用的设备类型,这是推荐系统需要考虑的另一个数据点。例如,在乘地铁上下班的途中,观众可能用手机观看 PBS 新闻。但是,回到家之后,他们可能会和孩子一起用电视观看各种节目。

为了整合来自前两个来源的数据,ClearScale 为 Amazon Aurora for PostgreSQL 关系数据库设置了一个原型环境。该数据库与 PBS 生产系统完全隔离,以确保提取、转换、加载(ETL,Extract, Transform, Load)流程实现最高弹性。Google Analytics 数据通过提取管道捕获,并存储在 Amazon Simple Storage Service(Amazon S3)中。

然后,ClearScale 实施了以 AWS Glue 为起点的数据管道,AWS Glue 是一种无服务器的云原生解决方案,用于爬取、验证和转换来自不同来源的数据。ClearScale 还对 AWS Glue 进行了配置,使其将数据设置为 Parquet 格式并分载到数据湖中,以便使用数据。这些步骤均使用 AWS Step Functions 进行编排,使 PBS 能够获益于自动化状态流管理和异常处理。

AWS Lake FormationAWS Glue Data Catalog 对于保护 PBS 的数据湖以及将其他云服务指向正确的数据存储至关重要。数据湖中的数据可以通过两种方式访问,这两种方式均使用标准 SQL:

  • 对于成本是最重要考虑因素的临时探索任务,非常适合使用 Amazon Athena 的无服务器分析。
  • 对于具有严格 SLA 要求且定义明确的常规查询,则使用基于 Amazon Redshift 的强大数据仓库。

在落实了用于数据运维的基础设施后,ClearScale 的下一步工作是满足该项目在 MLOps 方面的需求。

机器学习运维

ClearScale 帮助 PBS 确立了 ML 生命周期的四个主要阶段:

  • 模型开发
  • 训练
  • 推理
  • 评估

幸运的是,AWS 提供了诸多功能,使得公司可以在这四个阶段充分利用数据科学和机器学习的强大功能,而不必从头开始构建模型。

ClearScale 数据工程师基于 Amazon Personalize,创建了智能推荐引擎的初始版本,同时也没有忘记 PBS 工程师最终将全权负责这项工作。ClearScale 使用 Amazon FSx for Lustre,在数据载入时就将数据提供给系统使用。该团队还集成了 Amazon SageMaker Studio 作为开发环境,供 ML 工程师用来维护模型。

投产前模型开发工作的核心是 AWS Lambda、Amazon Athena 和 AWS Step Functions。ClearScale 将这些服务与 Amazon Personalize 连接起来,以便获取数据、加载更改和训练模型。

有了这些服务之后,ClearScale 为 PBS 的智能推荐引擎选择了核心配方(针对特定应用场景进行了优化的 Amazon Personalize 算法),并根据每个推荐输入和输出的不同要求构建了四个模型:

  • 人气统计机器学习模型:根据主流热度推荐电视节目。这是项目范围内最简单的模型,但它很重要。由于其他模型深入发掘过去的数据,因此它们推荐的节目虽然与用户相关,但都是过往作品。
    .
    在媒体和娱乐行业,当目标是推广新近作品时,此模型可以帮助其他模型避免太过深入挖掘历史。通过将考虑的数据范围限制在前一周,可以确定近期的趋势,并利用其他模型的预测来增强这些趋势。为了保持这些趋势的新鲜度,每天都会对此模型进行再训练。
    .
  • 作品关系机器学习模型:根据协同筛选推荐电视节目,从而推荐与观众之前互动过的节目最相似的节目。这个配方(SIMS)通过更深入的挖掘来揭示节目之间的关系,包括那些在人工分析或传统的线性和统计算法分析看来并不明显的关系。
    .
  • 互动历史记录机器学习模型:使用主动学习,根据用户行为模式推荐电视节目。通过主动学习,模型将在提供推荐的同一会话中获得有关用户活动的数据。这使得模型可在几秒钟内发现新规则,而无需经过数小时的全面重新训练。
    .
  • 个性化排名机器学习模型:根据明显的用户偏好对电视节目进行排名。此算法不推荐特定作品,而是摄入 PBS 提供的作品(例如“Best Christmas Shows”摘要),然后按反映用户偏好的顺序返回排名结果。
机器学习模型比较
标准 人气统计 作品关系 互动历史记录 个性化排名
模式 人气 相似性 行为 行为
维数 数千 数万 数十万 数万
性能 最佳 更好 良好 更好
覆盖范围
准确性 良好 更好 最佳 更好
重新训练 每周 每周

线上

每月

每周
配方 Popularity-Count SIMS User-Personalization Personalized-Ranking

ClearScale 在 Amazon Personalize 的统一 REST API(由 Amazon API Gateway 提供支持)上部署了这些模型,以向支持该公司流媒体应用程序的多个平台提供 PBS 推荐引擎的结果。访问控制基于 Amazon Cognito 和 AWS Identity and Access Management(IAM),以确保观众只能访问自己的数据。

每个模型的 API 都包含四个紧密连接的微服务:

  • 实时推荐 API:接收用户信息,并在几秒钟内提供推荐,说明接下来会有哪些精彩纷呈的节目吸引他们观看。
  • 个性化通知 API:与上一个微服务的作用相同,但与短信、电子邮件或推送通知等会话外营销渠道结合使用。
  • 反馈循环 API:处理观众的“喜欢”和“不喜欢”反馈,确定他们对推荐内容是否满意,从而确定推荐内容的正确性。
  • 配置管理 API:允许 PBS 管理员即时微调推荐引擎,而无需重新部署任何系统部件。

从任何方面来说,世界都不是一成不变的,机器学习也是如此。随着环境的发展,经过训练的模型无法像刚刚部署时那样良好运行。在 99% 的用例中,模型性能会随着时间的推移而降级,从而导致业务价值和最终用户满意度降低。例如,作品目录会收到模型以前从未见过的作品。

在最好的情况下,该模型会拒绝推荐该作品,这会带来偏见。在最坏的情况下,该模型会提供错误的预测,从而导致糟糕的决定。为了确保模型不会保持一成不变,必须采用最新数据不断重新训练模型,并偶尔更改其配置以适应新的游戏规则。

Amazon CloudWatch 之上添加了自定义模型监控器,用于衡量精确的指标,从而了解系统向观众提供适当推荐的能力。它不仅监控指标,还根据指标自动做出决定。例如,当模型接近某个阈值时,它会重新训练模型,这样,指标值就永远不会低于该阈值,从而确保观众满意。

在 ClearScale 为 PBS 提供的概念验证(PoC,Proof of Concept)中,得到的“10 次推荐精度”指标的结果为 0.0706。这个数字意味着,每推荐 10 个节目,至少有一个节目受到用户青睐的概率为 71%。值得一提的是,许多其他推荐系统只能达到 0.03 的结果。

演示用户界面

该项目的最后阶段是创建一个用户界面(UI,User Interface)原型,使 PBS 的观众能够以简单且吸引眼球的方式对自己的账户进行个性化设置。ClearScale 创建了一个演示 Web 应用程序,该应用程序重用现有的业务逻辑,并利用了新的推荐引擎。

该演示应用程序的 UI 采用 TypeScript 语言、ReactJS 库和 Sass 语言,并使用 Effector(客户端)和 React-Query(API 集成)进行数据管理。在发挥功能原型作用的同时,该演示应用程序还遵循了风格和品牌指南来体现 PBS 的独特性。得益于原生继承自 Material-UI 的响应能力,该演示应用程序在台式机、平板电脑和手机上都能同样良好地运行。

演示用户界面包括以下组件:

  • “Web Hosting”向观众提供演示应用程序,可不受平台限制进行访问。
  • “Unified Auth”允许 PBS 观众使用现有凭证登录,并自动向 SRE 提供其观看记录、偏好和其他个性化数据。
  • “Title Card”功能会在观众将鼠标悬停在目录中的节目上方时,显示有关该节目的详细信息,以及表明该节目与用户的相关性的评级。
  • “Content Player”使观众能够在演示应用程序中观看推荐内容。
  • “Top Picks for {User}”根据实时推荐 API 及互动历史记录机器学习模型,向观众显示个性化的推荐列表。
  • “Feedback Loop”允许观众判断系统所提供推荐的相关性,并实时看到该判断如何影响所推荐的内容。
  • “Top {K} Over Last Week”根据人气统计机器学习模型显示近期 PBS 的所有观众最喜欢的作品。

成果

现在,PBS 拥有了卓有成效的 MLOPs 平台和推荐系统,可以在此基础上继续发展。ClearScale 建立的数据管道可清理、验证和扩充 PBS 在其 50 年的历史中积累的原始数据。进入组织推荐系统的数据是一致、准确且完整的,使该系统成为当前和未来 AI 驱动应用的单一事实来源。

利用新的推荐引擎,PBS 还能够根据多种因素为观众提供更加个性化的体验。ClearScale 构建的四个模型结合了主流热度、作品间关系和用户行为等变量,可得出观众极有可能喜欢的推荐内容。

最后,ClearScale 为 PBS 开发的演示 Web 应用程序在用户友好的界面中展示了新推荐引擎的强大功能。它让人们可以快速找到自己喜欢的作品并分享对特定推荐的反馈,从而使 PBS 能够优化观众的体验。

在大型广播公司通过众多流媒体应用程序竞相争夺收视率之际,ClearScale 帮助 PBS 利用 AWS 强大的云原生工具,构建了自己的基于机器学习的解决方案。PBS 现在拥有可扩展的 MLOps 平台,可以用来每天为数百万观众提供更好的体验。

.
ClearScale-APN-Blog-Connect-1
.


ClearScale – AWS 合作伙伴聚焦

ClearScale 是 AWS 核心级咨询合作伙伴,帮助客户按规划的时间和预算,设计、构建、部署和管理复杂的云架构。

联系 ClearScale | 合作伙伴概述