AWS JAPAN APN ブログ
PBS、Amazon Personalize で視聴者向けにパーソナライズされたエクスペリエンスを提供
この記事は、AWS Editorial Team が 2022 年 8 月 2 日に投稿した「PBS Provides Tailored Experiences for Viewers with Amazon Personalize」を翻訳したものです。
公共放送サービス (PBS) は、さまざまな要素に基づいて視聴者に質の高い提案を行うことができる、スマートレコメンデーションエンジン (SRE) を構築したいと考えていました。
成功を確実にするため、PBS は人工知能 (AI) と機械学習の専門知識や、Amazon Web Services (AWS) プラットフォームに関する深い知識を備えたクラウドコンサルタント会社と提携することを決定しました。
ClearScale は、機械学習、非営利団体、データおよび分析を含む 11 の AWS コンピテンシーを持つ AWS プレミアティアサービスパートナーです。同社は PBS に最適なパートナーで、ストリーミング時代における視聴エクスペリエンスを大幅に向上させるために必要なものを PBS に提供しました。
「私たちは ClearScale と協力して、初期のソリューションとデータパイプラインのセットアップと設定を行いました」と、PBS の製品管理担当ディレクターである Mikey Centrella 氏は言います。「インサイトをより迅速に活用し、数年ではなく数か月で何かを立ち上げる必要がありました。ClearScale のエキスパートが Amazon Personalize を使用するための AWS クラウド設定と関連サービスをセットアップしてくれたので、多大な労力と数千時間のエンジニアリング時間を短縮することができました。」
PBS は 1969 年に設立されたバージニア州アーリントンを拠点とする非営利団体で、全米で 1 億人を超えるテレビ視聴者と 3,200 万人を超えるオンライン視聴者向けに、教育番組、ニュース番組、娯楽番組を放送しています。現在、PBS には約 330 の系列テレビ局があり、米国 50 州すべて、プエルトリコ、アメリカ領バージン諸島、グアム、アメリカ領サモアに最高品質のコンテンツを配信しています。
課題
今日の主要なメディアやストリーミングプラットフォームの多くと同様に、PBS は全体的なユーザーエクスペリエンスをレベルアップしたいと考えていました。PBS は、エンゲージメントと長期的なロイヤルティを向上させるために、タイトル間の深いつながり、現在の人気傾向、ユーザーの行動パターンなど、さまざまな要因に基づいて、アプリケーション内でより良い番組のレコメンデーションを視聴者に提供することを望んでいました。
一見すると、このようなレコメンデーションエンジンの作成は複雑に思えます。しかし、実は、このようなエンジンを構築するためにデータサイエンスの専門知識を習得したり、AI/機械学習に精通したりする必要ありません。クラウドネイティブなツールとサービスの適切な組み合わせを見つけて、それらにデータをフィードするだけで済みます。適切なツールキットがあれば、これらのサービスの開発に何年もかかることはありません。
幸い、AWS は AI/機械学習のマネージドソリューションを提供しているため、エンジニアは事前に構築されたモデルを活用して、モデルの作成、トレーニング、微調整という手間のかかる作業の多くを自動化できます。課題は、特に物事の急速な変化を考慮して、クラウドが提供する機能を最大化する方法を知ることにあります。
そのため、PBS は MLOps のリーダーである ClearScale にアプローチしました。MLOps は、理想的なレコメンデーションシステムを構築し、長期にわたって維持するために、PBS が必要としていた技術的専門知識の一種です。PBS と ClearScale は連携して、Amazon Personalize を基盤に、AWS を活用したソリューションに取り組んでいくことにしました。
PBS が真に差別化されたレコメンデーションシステムを構築するためには、エキスパートによる実装ガイダンスに加えて、利用可能な最新かつ最高のクラウドテクノロジーが必要でした。
ClearScale は、データオペレーション、機械学習オペレーション、デモンストレーション用のユーザーインターフェイスなど、PBS のレコメンデーションシステムプロジェクトに取り組むための詳細なロードマップを作成しました。
データオペレーション
まず、ClearScale と PBS は、どのデータソースを将来の機械学習モデルにフィードするか共同で決定しました。
- PBS Media Manager
- PBS のユーザープロファイル
- Google Analytics のメタデータ
PBS Media Manager は、PBS の系列局がさまざまなプラットフォームでタイトルを公開および共有するために使用するコンテンツ管理システムです。Media Manager には、タイトルの公開日、タグ、作者などの豊富なメタデータも含まれており、検索結果で視聴者に表示される内容を決定するルールも用意されています。
例えば、Media Manager は、視聴者の年齢や場所を考慮してからレコメンデーションを行います。これにより、年配の視聴者向けのタイトルがお子様に表示されたり、ある地域の視聴者に対してまったく別の地域のニュースが推奨されたりすることがなくなります。
PBS ユーザープロファイルには、PBS アプリケーションでの過去の操作、ウォッチリスト、視聴時間、視聴履歴など、個々の視聴者に関する貴重な情報が含まれています。したがって、ユーザープロファイルには、ユーザーが何を見て楽しんでいるかを示す最も明確な証拠がいくつか含まれています。
また、ClearScale と PBS は、誰がどこで PBS のコンテンツを視聴しているのかをより包括的に把握するために、Google Analytics からのコンテキスト情報を組み込むことにしました。Google Analytics には、ユーザーの視聴傾向を推測する際に役立つ可能性がある、個人に関する機密性の低いデータがあります。
このプラットフォームでは、ユーザーがコンテンツの視聴に使用しているデバイスの種類も確認できるため、レコメンデーションシステムで考慮する別のデータポイントになります。例えば、視聴者は電車で通勤中は携帯電話で PBS ニュースを見ているが、帰宅後は子供と一緒にテレビで番組を見るなどです。
最初の 2 つのソースからのデータを統合するために、ClearScale は Amazon Aurora for PostgreSQL リレーショナルデータベースのプロトタイプ環境をセットアップしました。このデータベースは、抽出、変換、ロード (ETL) プロセスの耐障害性を最大化するために、PBS 本稼働システムから完全に分離された状態で存在していました。Google Analytics のデータは、取り込みパイプラインを介してキャプチャされ、Amazon Simple Storage Service (Amazon S3) に保存されました。
その後、ClearScale はデータパイプラインを実装しました。最初に実装したのは AWS Glue です。これは、さまざまなソースからのデータをクロール、検証、変換するサーバーレスのクラウドネイティブソリューションです。また、ClearScale は、データを Parquet にフォーマットしてデータレイクにオフロードすることで、データを使用可能にするように AWS Glue を設定しました。これらのステップはすべて AWS Step Functions を使用してオーケストレーションされるため、PBS はステートフローの管理と例外処理の自動化という利点を活用できます。
PBS のデータレイクを保護し、他のクラウドサービスで適切なデータストアを指定するためには、AWS Lake Formation と AWS Glue データカタログが不可欠でした。レイク内のデータには次の 2 つの方法でアクセスでき、いずれの場合も標準 SQL を使用します。
- Amazon Athena によるサーバーレス分析は、コストが最も重要な要素であるアドホックな探索タスクに最適です。
- Amazon Redshift 上に構築された堅牢なデータウェアハウスは、厳密な SLA 要件を備えた定期的で明確に定義されたクエリに対応します。
データ運用のためのインフラストラクチャが整ったことで、ClearScale はプロジェクトの MLOps 側に取り組む準備ができました。
機械学習オペレーション
PBS は ClearScale の支援により、機械学習ライフサイクルの主要な 4 つの段階を確立しました。
- モデルの開発
- トレーニング
- 推論
- 評価
幸いなことに、AWS を利用すれば、モデルをゼロから構築しなくても、これら 4 つの段階でデータサイエンスと機械学習の力を活用できます。
ClearScale のデータエンジニアは Amazon Personalize を基盤としたスマートレコメンデーションエンジンの初期バージョンを作成しました。この際に、PBS のエンジニアが最終的に完全な所有権を取得することを念頭に置いていました。ClearScale は Amazon FSx for Lustre を使用して、ロード時にシステムでデータを使用できるようにしました。また、チームは機械学習エンジニアがモデルを維持するために使用する開発環境に Amazon SageMaker Studio を統合しました。
モデル運用前の作業の中心となるのは、AWS Lambda、Amazon Athena、AWS Step Functions です。ClearScale はこれらを Amazon Personalize に関連付けて、データの取得、変更の読み込み、モデルのトレーニングを行いました。
これらのサービスを導入した上で、ClearScale は PBS のスマートレコメンデーションエンジンのコアレシピ (特定のユースケースに合わせて微調整された Amazon Personalize のアルゴリズム) を選択し、レコメンデーションの入力と出力ごとに異なる要件に基づいて 4 つのモデルを構築しました。
- 人気度数機械学習モデル: メインストリームの人気度に基づいてテレビ番組を提案します。これは今回のスコープで最も単純なモデルですが、重要です。他のモデルは過去のデータを深く掘り下げるため、ユーザーに関連性がありながらも、これまで一貫して配信されていた番組を提案します。
.
最近のタイトルを宣伝することを目標としているメディアおよびエンターテインメント業界では、このモデルにより、他の視聴者が道を大きく外れないようにするために役立ちます。考慮するデータの範囲を前週に限定することで、最近の傾向を把握し、他のモデルからの予測でそれを補足することができます。これらの傾向を常に最新の状態に保つため、このモデルは毎日再トレーニングされています。
. - アイテム関係の機械学習モデル: 協調フィルタリングに基づいてテレビ番組を提案し、視聴者が以前に視聴した番組に最も類似した番組を推奨します。このレシピ (SIMS) は、人間の知性、または従来の線形アルゴリズムや統計アルゴリズムでは一見して明らかではないものを含めて、番組間の関係を深く掘り下げて明らかにします。
. - 視聴履歴の機械学習モデル: アクティブラーニングを使用し、ユーザーの行動パターンに基づいてテレビ番組を提案します。アクティブラーニングでは、レコメンデーションが提供されるのと同じセッションでのユーザーアクティビティがモデルに提供されます。これにより、数時間かかる完全な再トレーニングを行うことなく、数秒で新しいルールを発見できます。
. - パーソナライズされたランキング機械学習モデル: ユーザーの明らかな好みに基づいてテレビ番組をランク付けします。このアルゴリズムでは、特定のアイテムを取得する代わりに、PBS から提供されたアイテム (「クリスマス番組のベスト」ダイジェストなど) を取得し、ユーザーの好みを反映した順序で返します。
機械学習モデルの比較 | ||||
基準 | 人気度数 | アイテム関係 | 視聴履歴 | パーソナライズされたランク付け |
パターン | 人気度 | 類似性 | 行動 | 行動 |
次元 | 数千 | 数万 | 数十万 | 数万 |
パフォーマンス | 最高 | 大変良い | 良い | 大変良い |
カバレッジ | 低 | 中 | 高 | 中 |
精度 | 良 | 大変良い | 最高 | 大変良い |
再トレーニング | 毎週 | 毎週 | オンライン 毎月 |
毎週 |
レシピ | 人気度数 | SIMS | ユーザーパーソナライゼーション | パーソナライズランキング |
ClearScale は、PBS のレコメンデーションエンジンから得られた結果を、同社のストリーミングアプリケーションをサポートする多くのプラットフォームで利用可能にするため、Amazon API Gateway がサポートする Amazon Personalize の統合 REST API にこれらの各モデルをデプロイしました。アクセスコントロールは Amazon Cognito と AWS Identity and Access Management (IAM) に基づいており、視聴者が自分のデータにのみアクセスできるようにしています。
各モデルの API は、密接に関連する 4 つのマイクロサービスで構成されています。
- リアルタイムレコメンデーション API: ユーザー情報を受け取り、次にどのような優れた番組がユーザーを惹きつけて楽しませるかについて、数秒以内にレコメンデーションを提供します。
- パーソナライズされた通知 API: 前のマイクロサービスと同じ機能を持ちますが、SMS、E メール、プッシュ通知などのセッション外のマーケティングチャネルと組み合わせて使用されます。
- フィードバックループ API: 視聴者からのフィードバックを「高評価」または「低評価」の形式で処理して、視聴者がレコメンデーションに満足しているか、つまりレコメンデーションが適切かどうかを判断します。
- 設定管理 API: PBS の管理者は、システムパーツを再デプロイすることなく、その場でレコメンデーションエンジンを微調整できます。
世界はあらゆる意味で絶えず変化しており、機械学習もまた同様です。環境が進化するにつれ、トレーニングされたモデルはデプロイ直後のようにはうまく機能しなくなります。99% のケースで、モデルは時間の経過とともに劣化し、ビジネス価値やエンドユーザーの満足度が低下します。例えば、モデルでまったく視聴されていない新しいタイトルがアイテムカタログに追加されるなどです。
最良のシナリオでも、モデルがタイトルを推奨することを拒否し、偏りが発生します。最悪のシナリオでは、モデルが誤った予測を提供し、正しくない決定につながります。モデルの硬直化を避けるには、最新のデータに基づいてモデルを継続的に再トレーニングし、新しいルールに合わせてときどきその形を変更する必要があります。
Amazon CloudWatch の上にカスタムの Model Monitor が追加され、視聴者向けに適切なレコメンデーションを行うシステムの能力を特徴付ける精度メトリクスを測定するようになりました。これにより、メトリクスがモニタリングされるだけでなく、それに基づいて自動的に決定が行われます。例えば、特定のしきい値に近づくとモデルが再トレーニングされるため、メトリクス値がしきい値を下回ることはなく、視聴者の満足度を維持できます。
ClearScale の PBS に関する概念実証 (PoC) では、0.0706 の「Precision at 10」メトリクスが得られました。この数字は、推奨タイトルが 10 本あるごとに、71% の確率で少なくとも 1 本をユーザーが気に入ることを意味します。参考までに言うと、他の多くのレコメンダーシステムでは 0.03 の結果しか得られていません。
デモ用ユーザーインターフェイス
プロジェクトの最終段階は、PBS の視聴者がシンプルで視覚的に魅力的な方法でアカウントをパーソナライズできるようにする、ユーザーインターフェイス (UI) プロトタイプを作成することでした。ClearScale は、既存のビジネスロジックを再利用し、新しいレコメンデーションエンジンを活用したデモ用ウェブアプリケーションを作成しました。
デモ用アプリケーションでは、UI には TypeScript、ReactJS、Sass、データ管理には Effector (クライアント側) と React-Query (API 統合) を利用しました。機能的なプロトタイプとしての目的を果たす一方で、スタイリングとブランディングの両方のガイドラインを適用した PBS の独自性が反映されています。Material-UI からネイティブに継承された応答性により、デモ用アプリケーションはデスクトップ、タブレット、スマートフォンでも同じように機能します。
デモ用ユーザーインターフェイスには次のコンポーネントが含まれています。
- 「Web Hosting」(ウェブホスティング) はデモ用アプリケーションを視聴者に提供し、プラットフォームに関係なく利用可能にします。
- 「Unified Auth」(統合認証) により、PBS の視聴者は既存の認証情報を使用してログインし、視聴履歴、設定、その他のパーソナライズデータを SRE で自動的に利用できるようになります。
- 「Title Card」(タイトルカード) 機能では、カタログ内の番組にカーソルを合わせるとその詳細情報が表示され、タイトルがユーザーに関連しているかどうかを示す評価も表示されます。
- 「Content Player」(コンテンツプレイヤー) を使用すると、視聴者はデモ用アプリケーションでレコメンデーションを表示できます。
- 「Top Picks for {User}」({ユーザー} 向けのトップのおすすめ) では、リアルタイムレコメンデーション API とその視聴履歴の機械学習モデルに基づいて、パーソナライズされたリストが視聴者に表示されます。
- 「Feedback Loop」(フィードバックループ) では、視聴者がシステムから提供されたレコメンデーションの関連性を判断し、それが提供されるコンテンツにどのような影響を与えるかをリアルタイムで確認できます。
- 「Top {K} Over Last Week」(先週のトップ {K}) には、人気度数機械学習モデルに基づいて、PBS の全視聴者における最近の人気タイトルが表示されます。
メリット
PBS は、今後継続的に基盤として利用できる効果的な MLOps プラットフォームとレコメンデーションシステムを構築しました。ClearScale が設定したデータパイプラインは、PBS が 50 年の歴史の中で蓄積してきた未加工データのクリーニング、検証、強化を行います。組織のレコメンデーションシステムに入力されるデータは一貫性があり、正確かつ完全であるため、現在および将来の AI 主導の取り組みに関して信頼できる唯一の情報源となります。
また、新しいレコメンデーションエンジンにより、PBS ではさまざまな要素に基づいて、よりパーソナライズされたエクスペリエンスを視聴者に提供できるようになりました。ClearScale が構築した 4 つのモデルには、メインストリームの人気度、タイトル間の関係、ユーザー行動などの変数が組み込まれ、視聴者を喜ばせる可能性が非常に高いレコメンデーションが導き出されます。
最後に、ClearScale が PBS 向けに開発したデモ用ウェブアプリケーションは、新しいレコメンデーションエンジンの力をユーザーフレンドリーなインターフェイスで示しています。これにより、ユーザーは好きなタイトルをすばやく見つけたり、特定のレコメンデーションについてフィードバックを共有したりできるため、PBS は視聴者のエクスペリエンスを微調整できるようになります。
大手放送会社が多数のストリーミングアプリケーションで視聴率を競い合っている中で、ClearScale は、PBS が AWS の堅牢なクラウドネイティブツールを利用した独自の機械学習ベースソリューションを構築できるように支援しました。PBS は現在、何百万人もの視聴者により良いエクスペリエンスを毎日提供するために使用できる、スケーラブルな MLOps プラットフォームを備えています。
ClearScale – AWS パートナースポットライト
ClearScale は AWS プレミアティア サービスパートナーで、お客様が複雑なクラウドアーキテクチャを予定どおりに予算内で設計、構築、デプロイ、管理できるよう支援しています。
翻訳は、AWS Localization チームが担当しました。原文はこちらです。