大規模なデータを Amazon OpenSearch ドメインと Serverless コレクションに取り込み、変換し、ルーティングします
Amazon OpenSearch Ingestion は Amazon OpenSearch Service の機能で、これを使用すると、Amazon OpenSearch ドメインまたは Serverless コレクションへのデータの取り込み、フィルタリング、変換、エンリッチ化、およびルーティングができます。Amazon OpenSearch Ingestion は、さまざまなソースからデータを取り込むことができ、組み込みプロセッサの豊富なエコシステムを備えているため、最も複雑なデータ変換のニーズに対応できます。Amazon OpenSearch Ingestion は本質的にサーバーレスであり、最も要求の厳しいワークロードの要件に合わせて自動的にスケーリングされるため、オブザーバビリティやセキュリティのユースケースで複雑なデータパイプラインの管理に伴う複雑さを排除しながら、ビジネスロジックに集中できます。
メリット
コストの最適化
ノイズの多いデータを重複排除、サンプリング、および低コストのストレージにルーティングすることで、ストレージコストの削減を実現します。
データ品質
組み込みプロセッサを使用してデータを変換、フィルタリング、エンリッチ化し、スキーマを採用してオブザーバビリティを向上させ、セキュリティ調査にかかる時間を短縮することで、データ品質を強化します。
データ保護
機密情報を送信先に届く前に編集したり難読化したりすることで、機密データを保護します。
セキュリティとコンプライアンス
条件付きロジックを使用してデータをルーティングし、データの越境を禁止する法律への準拠を維持します。
仕組み
Amazon OpenSearch ドメインまたは OpenSearch Serverless コレクションにデータを書き込むと、データを検索、分析、視覚化してリアルタイムのインサイトを得ることができます。
主な特徴
AWS は、多くのお客様が利用している OpenSearch プロジェクトの主要な貢献者です。このマネージドサービス内で、OpenSearch Data Prepper のすべての新しいイノベーションをご利用になれます。コミュニティが推進し、貢献しているこれらの機能のほかに、Amazon OpenSearch Ingestion Service は次の機能も提供します。
AWS マネージドのソフトウェアインストールとパッチ適用
AWS による 24 時間年中無休のサービスのモニタリングおよび修復
AWS によるバージョンアップグレード
更新とアップグレードのダウンタイムなし
可用性 SLA: 99.9%
サーバーレス、取り込みワークロードの自動スケーリング機能付き
お客様とパートナー
-
CyberArk
-
Calyptia
-
Confluent
-
CyberArk
-
「クラウドベースのマルチテナントシステムであるCyberArk EPM (Endpoint Privilege Manager) では、AWS OpenSearch を使用して何百万ものエンドポイントを管理し、トラフィックの多いデータイベントを収集しています。Amazon OpenSearch Ingestion を活用することで、以前のセルフマネージド Logstash パイプラインを AWS マネージドパイプラインに置き換えました。これにより、独自のインフラストラクチャを管理する負担がなくなり、データインジェストのためのスケーラブルでコスト効率に優れた、信頼性が高い、安全なアーキテクチャを実現できました。この決定が行われたのは、CyberArk EPM が FedRAMP のハイインプロセスステータスを達成したことに加え、Amazon OpenSearch Ingestons が既にFedRAMPに準拠しているという利点があったためであり、これにより当社の製品において高いレベルのセキュリティを維持することが可能になりました」。
Ori Doolman、シニアソフトウェアアーキテクト - CyberArk EPM
-
Calyptia
-
「Calyptiaでは、Cloud Native Computing Foundation プロジェクトである Fluentd と Fluent Bit の作成者および管理者として、12年以上にわたってデータインジェストに取り組んできました。これらのプロジェクトの最新バージョンでは、Fluent プロジェクトと OpenSearch Ingestion Service を組み合わせることで、ユーザーがファーストマイルでより多くのコントロールを行えるようになることを期待しています。統合サービスにより、ユーザーはインフラストラクチャの管理と保守について心配することなく、エージェントと処理を引き続きスケーリングできます」。
Anurag Gupta、共同創設者 - Calyptia
-
Confluent
-
「Amazon OpenSearch チームと提携して、Apache Kafka と Confluent とのネイティブ統合を実現する OpenSearch 統合サービスを構築できることを嬉しく思います。この統合により、両社のお客様が OpenSearch 内の Apache Kafka を介してリアルタイムのデータにアクセスできるようになり、カスタマーエクスペリエンスを再考したり、リアルタイムのバックエンドオペレーションを構築したり、新しい製品やサービスを立ち上げたりできるようになります。Apache Kafka への主要な貢献者として、Confluent は完全なクラウドネイティブなデータストリーミングプラットフォームを構築することで、Kafka を 10 倍に進化させました。これにより、データが作成された場所から、私たち全員が住んでいるマルチ SaaS の世界で企業がアクションを起こせる場所にデータを移動できるようになります。このように、OpenSearch ユーザーは Confluent が統合されている何百ものデータソースから恩恵を受けることができます。両社のお客様が Confluent と OpenSearch でデータを活用しながら何を構築していくのか、とても楽しみです」。
Paul Mac Farland、パートナーおよびイノベーションエコシステム担当副社長 - Confluent
よくある質問
Q: Amazon OpenSearch Ingestion を使用する理由を教えてください。
Amazon OpenSearch Ingestionは、Amazon OpenSearch ドメインと Amazon OpenSearch Serverless コレクションのダウンストリームの分析と視覚化のためのデータのフィルタリング、エンリッチ化、変換、正規化、集約を可能にするデータインジェスト層です。Amazon OpenSearch Ingestion では、カスタムデータパイプラインを作成して、アプリケーションの運用状況を把握しやすくすることができます。Amazon OpenSearch Ingestion のサーバーレスの性質により、データパイプラインの自己管理に伴う複雑さが解消され、データパイプラインの処理能力がワークロードの要求に応じて自動的にスケーリングされます。Amazon OpenSearch Ingestion を使用すると、
- データ重複排除とサンプリングによるストレージコストの削減を実現し、ノイズの多いデータが Amazon OpenSearch でインデックス化されるのを防ぐことができます。
- Amazon OpenSearch ドメインでインデックス化される前にデータを変換、フォーマット、エンリッチ化することでデータ品質を高め、一般的なスキーマを採用することができ、問題のトラブルシューティングが容易になります。
- 機密情報を送信先に届く前に編集または難読化することにより、データの越境を禁止する法律への準拠が可能になります。
Q: Amazon OpenSearch パイプラインの主なコンポーネントにはどのようなものがありますか?
Amazon OpenSearch Ingestion パイプラインは、次の 3 つの主要コンポーネントで構成されています。
- ソースはパイプラインの入力コンポーネントです。パイプラインがレコードを消費するメカニズムを定義します。ソースは、http/s 経由でデータを受信するか、外部のサードパーティエンドポイントから読み取ることでレコードを消費する可能性があります。
- プロセッサは、レコードをシンクに公開する前に、レコードをフィルタリング、変換、および目的の形式にエンリッチ化できる中間処理ユニットです。プロセッサはパイプラインのオプションコンポーネントです。プロセッサを定義しない場合、レコードはソースで定義されている形式で公開されます。プロセッサは複数搭載できます。プロセッサは、パイプラインで定義した順序で実行されます。
- シンクはパイプラインの出力コンポーネントです。パイプラインがレコードを公開する宛先を 1 つ以上定義します。シンクを別のパイプラインにすることもできます。これにより、複数のパイプラインをチェーン化できます。
Q: Amazon OpenSearch Ingestion ではどのような種類のデータを取り込むことができますか?
Amazon OpenSearch は、Amazon OpenSearch ドメインで通常インデックス化されるようなあらゆる種類のデータの取り込みをサポートしています。これには、構造化データ、非構造化データ、テキストデータ、数値データ、地理空間データが含まれますが、これらに限定されません。OpenSearch Ingestonは、オブザーバビリティデータの 3 つの柱であるログ、メトリクス、トレースの取り込みもサポートしています。OpenSearch Ingestion は、データソース、プロセッサ、シンクの豊富なエコシステムのサポートと併せて使用することで、Amazon OpenSearch ドメインに保存する前にデータを変換できます。OpenSearch Ingestonを使用すると、Amazon OpenSearch クラスターでインデックス化する必要のあるデータを取り込むために、カスタムの Lambda 関数を記述したり、Logstash や Elasticsearch のインジェストノードを自己管理したりする必要がなくなります。Amazon OpenSearch Ingeston がサポートするソース、プロセッサ、シンクのリストについては、ドキュメントページを参照してください。
Q:Amazon OpenSearch Ingestion は Amazon OpenSearch プロジェクトとどのように関係していますか?
Amazon OpenSearch Ingestion は、Amazon OpenSearch Service でデータがインデックス化される前にデータを前処理するデータインジェスト層です。OpenSearch Ingestion は OpenSearch プロジェクトのコンポーネントである Data Prepper で構築されており、Data Prepper がサポートするすべてのデータ形式、ソース、プロセッサー、シンクをサポートしています。
Q:Amazon OpenSearch Ingestion を使い始めるにはどうすればいいですか?
Amazon OpenSearch Ingestion を開始するには、まずデータパイプラインを定義することから始めます。OpenSearch Ingeston パイプラインはビジネスロジックの中核であり、ソース、単一または一連のプロセッサ、およびシンクで構成されています。ソース、プロセッサ、シンクの詳細を含む YAML ファイルを介してパイプラインの設定を定義します。OpenSearch Ingeston では、パイプラインごとに設定したい取り込み用 OpenSearch Compute Unit (OCU) の最小容量と最大容量を設定することもできます。最後に、データが OpenSearch Ingestes のパイプラインに到達する方法を選択できます。
- VPC アクセス: VPC にアクセスするには、お客様の VPC から Amazon OpenSearch Ingestion パイプラインへのプライベートリンクを確立します。これにより、トラフィックをパブリックインターネットにさらすことなく、パイプラインへのプライベート接続が可能になります。
- パブリックアクセス: このネットワーク設定では、OpenSearch パイプラインへのデータはパブリックインターネットを経由します。
AWS コンソールまたは AWS コマンドラインからデータパイプラインの作成を開始できます。