Amazon Web Services ブログ

【開催報告】明日から使える!高度な文書検索サービスで生産性向上

みなさんは Amazon Kendra が東京リージョンで使えるようになったことをご存知でしょうか ?
東京リージョンで Kendra がローンチしたまさに2023 年 2 月 8 日 、目黒で「明日から使える ! 高度な文書検索サービスで生産性向上 ~ 機械学習で進化した最新のエンタープライズサーチ “Amazon Kendra” ~」というイベントを開催しました。このイベントでは Amazon AI サービス統括責任者である Vikram Anbazhagan が緊急来日し、Amazon Kendra の東京リージョンのローンチを発表をしました。また日本の AWS チームからはなぜ Kendra なのか、Kendra で何ができるのかを紹介しました。そして 日本電気株式会社 (NEC) の上席データサイエンティストである本橋洋介氏より、実際のビジネスシーンに即したKendra の利用シーンについて紹介いただきました。本ブログではその模様を詳細にご紹介します。

Amazon AI サービス統括責任者から東京リージョンのローンチ発表

Amazon Kendra_日本のお客様へのご挨拶のセッション動画をぜひご覧ください。

オープニングでは Amazon AI サービス統括責任者である Vikram より Amazon Kendra の東京リージョンローンチを発表しました。

AWS では 機械学習 (ML) の研究者から AI をこれまで触ったことがない技術者にいたるまで幅広い層をカバーする AI/MLソリューションを取り揃えています。そのなかで Amazon Kendra は AI サービスに位置します。そのため今まで検索エンジンを構築した経験のない方々や機械学習の経験のない方々にも安心して使えるサービスとなっています。また Amazon Kendra は他の AWS サービスと連携することもできます。例えば音声の書き起こしのサービスと連携させることで、動画ファイルの検索も実現することが可能です。そして US やシンガポールリージョンと同等の機能が東京リージョンでローンチしたことを発表しました。また先行している英語圏での事例も「エンタープライズサーチ」「カスタマーサービス」「SaaS アプリケーションへの組み込み」の 3 軸で紹介しました

エンタープライズサーチ動向とクラウド活用の現在地

Amazon Kendra_エンタープライズサーチ動向とクラウド活用の現在地のセッション動画をぜひご覧ください。

アマゾン ウェブ サービス ジャパン合同会社の機械学習スペシャリストチームの事業開発担当である黒川のセッションでは Kendra で提供できる価値について発表しました。

「時代の変遷とともに企業内でデータがサイロ化、分散している」「欲しい情報へのアクセスに時間がかかる」など、お客様からよく伺う共通する課題をもとに、なぜエンタープライズサーチが必要とされるのかを紹介ました。さらに今までの検索体験と Amazon Kendra で実現可能な検索画面を見比べながら、早く適切な情報にアクセスできることをご紹介しました。そして実際のお客様事例を交えながら、現場のお客様がどのような課題を抱えていて、Amazon Kendra でどう解決してきたのかを紹介しました。

Amazon Kendra の見どころをデモを交えて紹介

Amazon Kendra_デモ: Amazon Kendra の見どころのセッション動画をぜひご覧ください。

アマゾン ウェブ サービス ジャパン合同会社のソリューションアーキテクトである関谷のセッションでは Kendra が日本語でどういった検索体験を実現できるのかについてリアルタイムでのデモをおこないました。

今までの全文検索 DB だけでは検索をすぐはじめることは困難でした。導入までにコネクターや検索品質を可視化するためのダッシュボードといった周辺部品の開発が必要なためです。また単なるキーワード検索では利用者が必要としている情報を素早く提供できない可能性が高く、その品質監視、維持には莫大な労力がかかっていました。Amazon Kendra を使ってこれらの課題を解決するために、Amazon Kendra のセットアップ、実際の検索、運用の 3 つのシチュエーションに分けて、セットアップが簡単であること、必要な情報を見つけやすいこと、品質を監視する機構を兼ね揃えていることを紹介しました。また理解を深めていただくためにそれぞれの手順を実演しました。

Amazon Kendra で拡がるビジネスでの文章活用

Amazon Kendra で拡がるビジネスでの文章活用のセッション動画をぜひご覧ください。

NEC の本橋洋介氏のセッションでは、自然言語処理、文章活用の潮流を踏まえた上で Amazon Kendra での検索体験を紹介いただきました。

Transformer、BERT といった自然言語処理分野でのトレンドや NEC でのビジネスを踏まえた上でなぜ今自然言語処理ベースのエンタープライズサーチが必要とされるのかについて紹介いただきました。また、NEC の社内データと公開データを Kendra に投入しどのような検索を実現できたのか、またそこから考えられる考察や利用イメージについて紹介いただきました。

まとめ

本イベントでは Amazon Kendra の東京リージョンローンチを発表し、なぜ Amazon Kendra が必要か、日本語環境で Amazon Kendra は何ができるのかを紹介しました。また英語圏の活用事例と日本語検索の実演によりその導入イメージを深めていただけたかと思います。また NEC 本橋氏よりデータサイエンティストのお立場でその潮流と実データによる検証結果を紹介いただきました。

お客様からのご意見を元に今後 Amazon Kendra も更に進化させていきます。本セッションで Amazon Kendra に興味を持たれた際はぜひこちらの窓口からお気軽にお問い合わせ、ご要望いただけますと幸いです。

Q&A

イベント中にお答えできなかったご質問について回答とともに一部ご紹介します。

Q. 検索結果の制限(セキュリティ的に A さんには見せていいが、B さんには見せてはいけないなど)はどうやればできますか?
A. Kendra の管理者はあらかじめコンテンツごとにアクセスできるユーザ・グループを指定できます。検索するときにユーザ・グループの情報をアプリ側で指定させることで(例えば、ユーザ認証を経て)検索を制限できます。Kendra ハンズオンの「Amazon Kendraによる安全な検索」のセクション』も合わせてご参照ください。

Q. ファセット定義、同義語、query suggestions、エンリッチは日本語でも使用できるのでしょうか。
A. 2023/02/08 時点でファセットによるフィルタリング, custom document enrichment は利用可能です。カスタムシノニムは日本語で利用できませんがワークアラウンド実装を提供しています。query suggestion は利用できません。

Q. ソート順 キーワード関連性 作成時間 はどのような設定で有効になりますか
A. チューニングに関するドキュメントをご参照ください。

Q. Kendra の料金はどのようにかかりますか?
A. 料金ページををご参照ください。請求に関する詳細は請求ダッシュボードからご確認いただけます。また料金に関するお問い合わせはこちらから AWS Support へお願いします。

Q. Amazon Kendra は AWS のマネージドサービスのデータソースとして、EBS、EFS、FSx for Windows 以外の FSx シリーズ、などに対応可能でしょうか?
A. ご要望ありがとうございます。公式のコネクターでは現状それらのデータソースには対応していませんが、BatchPutDocument APIをご利用いただくか、S3にsyncしていただき、S3コネクター経由で取り込むことが可能です。また、公式のもの以外にも、AWS パートナーが開発しているコネクターも数多く存在しています。例えば Raytion 社から NetApp ONTAP コネクターが提供されています。

Q. Webサイトをデータソースとして利用する場合、Webサイトの検索結果をIndexできるか
A. Web Crawler Connector で実現可能です。

Q. データソースにわかりやすい別名を作ることができるか
A. データソースを Kendra で作成する(インポートする)際に、名前をつける必要があります。これは元のデータソースの名前でなく、使いやすい名前を設定可能です。

Q. 動画の検索はどうやっていますか?Transcribeであらかじめ文字起こししてますか?
A. はい、こちらのブログをご参照ください。

Q. AI オプトアウトの対象に Kendra は含まれていない認識ですが、Kendra でインデックス化された情報がサービスの学習データに使われるなど、何かしらの形でユーザ管理外の領域に出ることはない理解でよろしいでしょうか。
A. 2023.2時点ではありません。サービス利用条件をご参照ください。

Q. コンプラ、リスクの観点は面白かったです。このような観点だと、検索し忘れても Kendra 側が必要な人に必要な情報を必要なタイミングで push できると更に価値があるなと思いましたが、そのような事例はありますでしょうか?
A. これは面白いアイデアですね。Amazon Kendra の事例は pull 型のものが中心です。ただ検索ログを別で収集しておき Amazon Personalize でレコメンドするといったアーキテクチャが考えられますね。Amazon Personalize のハンズオンも合わせてご参照ください。

Q. どうしてもオンプレミスデータをパブリックのネットワークにのせたくない顧客もいると思うのですが、専用線等で利用されている事例はありますか?また可能なのでしょうか?
A. 2023/02/08 時点で専用線であることを明記した事例はありません。ただ Kendra は AWS PrivateLink に対応しており、オンプレミスからパブリックなネットワークを介さないアクセスの実現は可能です。

Q. 本日ローンチされた東京リージョンでは、なにか制約(他リージョンと違う点)はございますでしょうか?
A. 基本的には同じ機能が提供されていますが、FIPS endpoint などの一部で機能の有無があります。個別の事象に関しては AWS Support にお問い合わせください。

Q. サイロ化されている組織で、うまく活用できるのでしょうか。
A. 複数のデータソースを横断で検索する機能を Amazon Kendra は持っています。個別の導入に関するご相談はこちらの窓口からお問い合わせください。

Q. box に保管されている文書に対して Kendra を使おうとするとき、box のフォルダーや文書ファイルごとに box ユーザーに対するアクセス権限がセットされているが、Kendra としてそうしたアクセス権限に対してどのように対応するのか?
A. ユーザーコンテキストフィルタリングという機能を利用して実現します。詳細はこちらドキュメントを御覧ください。

Q. 複数のドキュメントから回答の元となるフレーズを抽出し、結果として出力は可能でしょうか?
A. 現状、個々のドキュメントに対して検索をする仕組みになっています。

Q. MLモデル管理のマネージドとは具体的にどのような仕組みなのですか?
A. お客様側でモデルを操作する(構築したり、ホスティングしたりする)必要がありません。Kendraでは自然言語を利用したクエリを解釈して検索することができます。検索結果として単語を抽出したり、FAQとマッチングを取ったり、クエリとドキュメントの関係度合いを計算する部分で、KendraがマネージしているMLモデルが利用されます。

Q. index や connector を作成するのは、個人ごとに作成するのか、グループ単位や会社単位で作成するのか?
A. グループ単位や会社単位となります。

Q. Kendra 上に残る文書情報はなんでしょうか。
A. connector で import された文章となります。またそれらの情報は保管中、転送中に暗号化されて管理されています。詳細はデータ保護に関するドキュメントを御覧ください。

Q. EC2 のディスク中のファイルに Index を作れるか
A. 対応しておりません。S3 などへアップロードをお願いします。

Q. 検索対象となるドキュメント数が少ないと導入効果が低いと思いますが、効果が出やすい規模の目安はありますか?
A. 検索ドキュメント数より検索回数が支配的になると思います。ドキュメントが少なくても検索回数が多い (= 有用で使いたいと思える) のであれば効果はあると考えられますし、有用なドキュメントが揃っていることになります。
FAQ 検索など、検索対象となるものが少なくても、クエリの表現が多様でうまく検索できない場合はKendra のセマンティックサーチが有効で、業務の効率化につながると思います。

Q. Kendraとデータソース間の通信は、どんな頻度でどれくらいのデータ量でしょうか?
A. データソースの更新頻度は指定可能です。データ量は保存元の量に依存します。

Q. 検索対象の文書が削除される場合、定期的に再インデックスが必要になりますでしょうか?
A. データソースとの同期は更新頻度が指定可能です。

Q. 複数のデータソースを設定出来ますか? また、言語設定がばらばらなデータソースを1つのインデックスに作成することが出来ますか?
A. 可能です。検索する際はどの言語のデータソースを検索するか指定することができます。