Amazon Web Services ブログ

株式会社ナウキャスト様の AWS 生成 AI 事例:決算短信データ抽出業務における LLM 業務適用

本稿は株式会社ナウキャスト データ & AI ソリューション事業部 事業責任者 片山 燎平様と Amazon Web Services Japan ソリューションアーキテクト 宮﨑の共同執筆です。LLM の業務活用に取り組まれる方の参考となれば幸いです。また、今回内容を含む講演動画も公開されておりますので、ご興味をお持ち頂けましたらあわせてご覧ください。

==

株式会社ナウキャストでは POS データやクレジットカードの決済データといった「オルタナティブデータ」を解析し、リアルタイムな経済統計の開発、生活者の消費行動や企業活動をより早く正確にとらえるデータソリューションの提供に取り組んでいます。POS データやクレジットカードなどの決済データ、ニュースや SNS 投稿のテキストデータといったオルタナティブデータを解析し、経済統計のリアルタイム化や企業の経営戦略の見える化を行い、国内外 250 社以上の金融機関、シンクタンク、政府、政府系金融機関、海外ヘッジファンド等の資産運用、経済調査業務を支援しています。

現在ナウキャストでは、国内外の資産運用会社と生成 AI / 大規模言語モデル (LLM) を活用した業務効率化システムの開発を推進しています。当該業務では資産運用における判断・意志決定のために膨大な適時開示資料から人力でデータ抽出を行っており、データの正確性は担保しつつ、データ抽出処理を効率化する仕組みの構築が求められていました。

本稿では、弊社における LLM によるデータ抽出効率化の取り組みの一例として、適時開示資料である決算短信からセグメント別売上情報を抽出する処理の実装とその成果についてご紹介します。

セグメント別売上情報抽出業務:現行課題

(図1. セグメント別売上情報抽出 – 手動)

セグメント別売上情報抽出の業務では、適時開示資料をもとに、Excel などにデータを転記していく作業を行います。こちらの作業は (1) 対象銘柄の決算短信を探し、(2) セグメント別売上情報の記載個所を探し、(3) 該当箇所からセグメント名と各数値をコピー&ペーストで埋めていく、といった流れになっており、一社当たり平均 2~3 分を要します。この業務は日々多くの会社の情報を取り扱う会社において、転記そのものの時間に加えチェックの負荷もあり、業務上大きな負担となっていました。

課題解決に向けた検討

皆様も既にご存じの通り、現状の LLM は課題に対する万能の解決方法ではありません。例えば、不適切な入出力を防止するためのガードレールの構築と維持、企業独自の知識を LLM で利用するためのデータソースの管理、適切なアクセス権限の制御など、プロトタイピングを超えて本番運用を見据えた場合、LLM の運用にあたっては多くのハードルがあります。

そのためナウキャストでは、課題解決の検討に LLM の利用を含める場合、LLM での解決が適しているかの見極めを実施しています。特に、LLM を万能の AI アシスタントとしてとらえるのではなく、自然言語の処理技術としてシステムに組み込むことが可能か、という視点で捉えなおし、以下の観点を一例として LLM に適したタスクかどうかの判断を行っています。

LLM アプリケーション開発に向いたタスク:観点例

(1) 正解が簡単に判断できる、もしくは正解がないタスク

  • 人間が実施する場合でも難しい複雑なタスクは LLM にも難しいため、答えの決まりやすいタスクを対象とする

(2) 深いドメイン知識が必要ない、もしくはそのドメインに関する知識が世に広く出回っているタスク

  • RAG にも限界があるため、できるだけドメイン知識に依存しないか、一般的なドメイン知識の業務を対象とする

(3) 終了に必要なコンテキストが少なく、かつコンテキストの言語化が容易なタスク

  • 複数のコンテキストが絡み合う内容は LLM では精度を出すことが難しいため、シンプルなものを対象とする

(4) ユーザーがプロンプトを入力しないタスク

  • 業務ユーザーがプロンプトを扱うにはユーザー側・システム側双方の負荷が高いため、ユーザー入力をプロンプトに反映する必要のない業務を対象とする

今回のセグメント別売上情報抽出業務は上記 (1) ~ (4) の観点を満たすタスクとなっており、また、処理の実装により人間の作業コストを大きくカットできると見込まれることから LLM での適用に適したタスクと判断し、検証を実施することにしました。

解決策

(図2.セグメント情報抽出のフロー)

今回のフローでは、決算短信データ (PDF) から財務データ抽出を行う業務特性に照らし、大量の書類を扱う事に長けた Anthropic Claude 2 (100K) (*1) が利用可能な Amazon Bedrock を採用しました。また、LLM による情報抽出の精度が 100% になることはないため、オペレーターの目検チェックを運用に組み込んだ Human in the loop (*2) のシステムとする事で、ハルシネーションのリスクを最小化するようフローを設計しています。

(*1) 検証時点の最新モデル (*2) 人がループ(システム処理フロー)の中に参加する事で、プロセスの効率性と透明性を高める取り組み

LLM データ抽出システム:実装イメージ

ここまでの課題・解決策をもとに実装した LLM データ抽出システムのアーキテクチャーおよびポイントは以下の通りです。

アーキテクチャー

(図3. LLM 抽出システム:アーキテクチャー)

ポイント

基盤モデル

  • Amazon Bedrock では複数の基盤モデルが提供されています。今回はデータ抽出の対象とする決算短信を分割せずに入力可能であることを重視し、Anthropic Claude 2 (100K) モデルを採用しました。

プラットフォーム

  • LLM の業務導入では、LLM 単体の開発ではなく、業務システムとの統合を前提とした開発を行うことが重要になります。アプリケーションや業務システム統合を念頭に置いた場合、LLM に留まらず多くのサービスを提供する AWS を選択することで柔軟に業務システムを開発することが可能になると判断しています。

アプリケーション

  • Amazon Bedrock と 他の AWS サービスを組み合わせてアプリケーションを実装しています。
    • Amazon ECS 上に Streamlit (*3) を用いたデータ整形のアプリケーションを実装
    • 認証は Amazon Cognito を採用し、セキュリティと利便性を実現
    • 決算短信の PDF データは ECS で定期的に取得し、データを S3 に保存

(*3) Python で簡易的な WEB アプリケーションを実装できるライブラリ

セグメント別売上情報抽出業務:解決後業務イメージ

(図4. セグメント別売上情報抽出 – LLM データ抽出システム)

LLM データ抽出システム実装により、担当者の業務が改善されました。担当者が銘柄コードを入力するだけで、該当銘柄の適時開示資料におけるセグメント別売上情報のページ、およびそこから自動的に抽出されたセグメント別売上情報のテーブルがされるようになっています。担当者は表示された内容のチェックを行うだけでよく、情報を探索する手間や、転記ミスのリスクも低減されました。

ビジネス効果

LLM データ抽出システムの実装により、以下の成果を得ることができました。

(1) LLM による抽出精度 90% を達成

  • 日本の上場株式約 100 銘柄を対象に検証した結果として、90% 以上の精度で正しく財務データの抽出に成功しました。また、今回失敗したケースについてもプロンプトのカスタマイズ等の対応によりさらなる改善が見込める状況です。

(2) 情報抽出のオペレーション工数を 50% 削減

  • 従来資産運用会社のアナリストが Excel 等を用いてマニュアルで実施していた財務情報の検索と抽出が自動化された事により、情報抽出のオペレーションコストを 50% 削減しました。さらに副次的効果として、転記の際のコピー&ペーストが削減され、ヒューマンエラーの削減にもつながっています。

(3) Streamlit で短期間のアプリケーション開発を実現

  • 今回のシステムにおいては、AWS のマネージドサービスを活用するとともに、アプリケーション側の実装においてはローコード開発ツールである Streamlit を活用しました。それにより LLM アプリケーション開発担当 1 名のリソースにもかかわらず、短期間でのアプリケーション開発と効果検証を実現することができました。

今後の展望

今回の検証を踏まえ、今後さらに以下の展開を図っていくことを予定しています。

(1) 決算資料など対象業務の拡大

  • 今回構築した仕組みをもとに、決算短信に加え、決算説明資料・有価証券報告書・大量保有報告書など様々な企業の開示資料に対象を拡大していきます。

(2) 全上場銘柄を対象にオペレーションを拡大

  • 現状対象としている 100 社だけでなく、全銘柄を対象にすることでデータ単体でのマネタイズを目指します。また、オペレーション拡大に伴うデータ品質確保も図っていきます。

(3) オペレーションを他業種のデータにも拡大

  • 適時開示資料をベースとしたシステム構築のノウハウを他業種にも展開し、データを拡充します。また、今回の調査オペレーション自体をカスタマイズし、クライアントへの提供を目指します。

まとめ

今回の検証により、Amazon Bedrock と AWS サービスを活用することで LLM アプリケーションを短期間で構築できることが実証できました。それにより、ビジネス適用時の業務検証 PDCA サイクルが高速化され、今後さらに幅広い領域へのビジネス展開ビジネスへの適用・拡張容易性向上が可能であるといった知見が得られました。

ナウキャストでは、データエンジニアリングと生成 AI 活用に強みを持っています。生成 AI に限らず、データ基盤構築やデータ利活用推進もあわせてご相談頂くことが可能です。データ活用や生成 AI 活用でお困りごとがございましたら、「株式会社ナウキャスト」で検索頂き、「デモリクエスト」よりお問い合わせを頂けますと幸いです。

==

カスタマープロフィール:株式会社ナウキャスト ( Nowcast Inc. )

株式会社ナウキャストは.、東京大学経済学研究科渡辺努研究室における「東大日次物価指数(現:日経CPINow)」プロジェクトを前身として設立された、オルタナティブデータのリーディングカンパニーです。