Amazon Web Services ブログ

【お客様事例】株式会社朝日新聞社様 自然言語処理の取り組みとEC2 Inf1インスタンスの検証

2021 年 3 月 18 日にメディア業界のお客様向けに Analytics & AI/ML をテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業がいかにデータを活用し、新たなビジネスを展開していくかに焦点をあてた機械学習の活用方法をご紹介し、お客様に事例をご説明いただきました。

セミナーのアジェンダは以下の通りです。
オープニング & 大阪リージョン解説について
メディア企業が分析基盤(CDP/DMP)をAWSクラウドに構築する際のメリットと検討ポイント
データレイクアーキテクチャ とpurpose-buildな分析サービス活用事例の紹介
メディア企業での機械学習の活用
[お客様事例] 株式会社メディアドゥ様 Amazon Personalize 電子書店システムへの活用
[お客様事例] 株式会社フジテレビジョン様 Amazon Rekognition 「メタロウ」の開発と検証
・[お客様事例] 株式会社朝日新聞社様 自然言語処理の取り組みとEC2 Inf1インスタンスの検証

本ブログではセミナーの発表の中から、株式会社朝日新聞社様による Amazon EC2 Inf1インスタンス, Deep Learning AMIs, Amazon SageMaker を活用した、自然言語処理の取り組みについて紹介させて頂きます。

朝日新聞社メディアラボの取り組み

株式会社朝日新聞社 メディアラボ 主査(博士) 田森 秀明様
登壇資料:[Slide]

朝日新聞社 田森様より、メディアラボの取り組みとAWSの活用についてご紹介いただきました。メディアラボ研究チームは人工知能や自然言語処理の分野にフォーカスして、「社内にコア技術を保有すること」「社会課題の解決、マネタイズ」「学術・社会への貢献」をミッションに、日々基礎研究や新規事業の開発に取り組まれています。

自動要約API TSUNA(Text SUmmarizatioN Application)

最初に昨年サービス提供を開始した、自動要約アプリケーション「TSUNA(Text SUmmarizatioN Application)」についてご紹介いただきました。TSUNA は朝日新聞社が大量に保有している過去 30 年分の記事データを、効率よく処理させるために前処理・フィルタリングをした上で、ディープラーニングを用いて学習した言語モデルを活用しています。スタイルや文字数(8~100文字)をコントロールして、リクエストした本文から自動的に文章の要約を行い、見出しや要約を瞬時に作成することができます。本セミナーでも実際に要約を作成するデモを見せていただきました。

TSUNA(Text SUmmarizatioN Application)
https://cl.asahi.com/api_data/headlinegeneration.html

TSUNA は既に業務にも組み込まれていて、電子掲示板で新幹線などの速報テロップ向けに提供されている、短文要約の作成業務を約 90 分から 1 分へと短縮したとのことです。また おすすめ記事のツイートなど、掲載するメディアによってレギュレーションの異なる、見出し・要約文を作成する業務で効率化・省力化に貢献しているとのことです。

言語モデルを利用した自動文書作成・文書分類

大量の日本語の構造を学習した言語モデルは、要約の他にも文章の自動校正、自動記事作成、文書分類などの用途にも活用されているとのことです。この分野の取り組みでは「言語モデルを利用した自動文書作成」「言語モデルを利用した文書分類」のデモを見せていただきました。

言語モデルを利用した自動文書生成
https://cl.asahi.com/api_data/gpt2-demo.html
朝日新聞社の機械学習モデル(GPT-2言語モデル)を使って、短いキーワードから自動的に文章を生成するデモを見せていただきました。
※この記事はフィクションであり、実在の人物・団体・商品等とは何ら関係ありません。

言語モデルを利用した文書分類
https://cl.asahi.com/api_data/covid_19.html
朝日新聞社メディアラボと株式会社Strolyの共同研究。コロナ禍における日本全国の状況を<自然言語処理>と<地図表現技術>の掛け合わせにより可視化しています。朝日新聞社の保有するコロナ関連記事からキーワードを抽出し、極性判定、記事の位置情報推定を行った上で地図上にプロットしています。いつ、どこで、どんなことが語られたかが可視化される、数字だけからは見えてこない社会の状況が把握できます。

 

AWS の学習・推論環境

学習フェーズではオンプレミスサーバーの他に、AWS での環境を用意され強力な GPU を搭載した Amazon EC2 P3 インスタンスAmazon SageMaker を活用されていて、推論フェーズでは従来の Amazon EC2 C5 インスタンスだけでなく、高パフォーマンスかつ低コストで推論を提供可能な Amazon EC2 Inf1 インスタンスの活用に向けて検証をおこなっているとのことです。Inf1 インスタンスでは従来の 7 倍の処理速度を記録したとのことで、今後は大規模な言語モデルなど、従来 GPU で対応していた用途に活用していきたいと語っておられました。

Amazon EC2 Inf1 インスタンス説明資料 ~AWS 独自開発チップ Inferentia による推論処理 ~

まとめ

お客様の業務に機械学習を取り入れることで、顧客体験の向上や業務効率化・省力化を進めていくことができます。今回、機械学習の推論処理に最適化した独自プロセッサ「AWS Inferentia」を持つ Inf1 インスタンスを検証いただき、その価格性能比を体感いただいております。機械学習を活用し、そのコストパフォーマンスに課題があるお客様にご参考になればと存じます。また、AWS の機械学習サービスは日々進化しており、今後は機械学習のトレーニング処理を最適化した、独自プロセッサ「AWS Trainium」をリリースする予定です。

メディアラボ・研究チームは 4 月より「メディア研究開発センター」へ改組をおこない、12 名のチームへレベルアップされるとのことです。田森様は今後も AI 技術を専門に扱う R&D チームとして、研究・事業開発を進めていきたいと語っておられました。
最後に本セミナーにご協力いただいた朝日新聞社様には改めて感謝を申し上げます。またセミナーに参加いただいた皆様 誠にありがとうございました。引き続き業界の皆様に役立つ情報を、セミナーやブログで発信していきます。どうぞよろしくお願い致します。

このブログは SA 森が担当しました。


 

AWS Media & Entertainment 参考コンテンツ

AWSのメディアチームの問い合わせ先: awsmedia@amazon.co.jp

※毎月のメルマガをはじめました。最新のニュースやイベント情報を発信していきます。購読希望は上記宛先にご連絡ください。