Amazon Web Services ブログ

AWS Lake Formation – セルレベルのセキュリティと自動圧縮による Governed Tables の一般提供を開始

データレイクは、データサイロを解消し、さまざまなタイプの分析を統合して一元化されたリポジトリにまとめるのに役立ちます。このリポジトリには、すべての構造化データと非構造化データを格納できます。しかし、データレイクのセットアップと管理には、手作業による複雑で時間のかかるタスクが多く伴います。AWS Lake Formation を使用すると、安全なデータレイクを数週間や数か月ではなく数日で簡単にセットアップできます。

2021 年 11 月 30 日(米国時間)、データの読み込み、ストレージの最適化、データレイクへのアクセス管理をさらに簡素化するいくつかの新機能の一般提供を開始します。

  • Governed Tables – 新しいタイプの Amazon Simple Storage Service (Amazon S3) テーブルは、あらゆる規模のデータを簡単かつ確実に取り込み、管理できます。Governed Tables は ACID トランザクションをサポートしています。これにより、複数のユーザーが複数の Governed Tablesにまたがってデータを同時に確実に挿入および削除できます。ACID トランザクションでは、一貫性のある最新のデータを返すクエリを実行することもできます。抽出、変換、ロード (ETL) プロセスでエラーが発生した場合、または更新中に、変更はコミットされず、表示されません。
  • Governed Tables 向けの自動圧縮によるストレージの最適化 – このオプションを有効にすると、Lake Formation は Governed Tables の小さな S3 オブジェクトを自動的に大きなオブジェクトに圧縮し、Amazon AthenaAmazon Redshift Spectrum などの分析エンジンを介したアクセスを最適化します。自動圧縮を使用すると、データの読み取り、マージ、新しいファイルへの圧縮、および元のファイルの置き換えを行うカスタム ETL ジョブを実装する必要はありません。
  • 行およびセルレベルのセキュリティによるきめ細かなアクセス制御 – アクションを実行しているユーザーの ID に基づいて、クエリ結果および AWS Glue ETL ジョブ内の特定の行と列へのアクセスを制御できます。この方法では、さまざまなロールや法規制ごとにデータのサブセットを作成 (および更新) する必要がありません。これは、Governed Tablesと従来の S3 テーブルの両方で機能します。

Governed Tables、ACID トランザクション、および自動圧縮を使用する
Lake Formation コンソールでは、テーブル作成時に管理されたデータアクセスと管理を有効にできます。自動圧縮はデフォルトで有効になっており、AWS Command Line Interface (CLI) または AWS SDK を使用して無効にできます。

コンソールのスクリーンショット。

Governed Tables には、テーブルのデータの一部である S3 オブジェクトを追跡するマニフェストがあります。UpdateTableObjects API を使用して、テーブルに新しいオブジェクトを追加するときにマニフェストを最新の状態に保つことができます。また、AWS CLI と SDK を使用して呼び出すことができます。この API は AWS Glue ETL ライブラリによって暗黙的に使用されます。

さらに、トランザクションを開始、コミット、キャンセルするための新しい Lake Formation API にアクセスできます。これらの API を使用して、データの読み込み、データ変換、一貫性のある最新のデータの出力をラップできます。

行レベルとセルレベルのセキュリティを使用する
データにアクセスするユーザーのロールに応じて、テーブルの特定の列、行、または組み合わせへのアクセスを制限するユースケースが多くあります。例えば、米国、ドイツ、フランスにオフィスを構える企業は、欧州連合 (EU) に拠点を置くアナリスト用のフィルターを作成して、EU ベースの顧客へのアクセスを制限できます。

コンソールのスクリーンショット。

このフィルターでは、生年月日 (dob) や電話番号などの一部の列に、アナリストがアクセスできないように強制できます。さらに、フィルター式を使用して、個々の行へのアクセスをフィルタリングできます。オープンソースの PartiQL 言語に基づく SQL 互換構文で行フィルター式を設定できます。この場合、国がドイツまたはフランス (country='de' または country='fr') に等しい行のみが表示されます。

コンソールのスクリーンショット。

利用可能なリージョンと料金
この新機能は、本日から米国東部 (バージニア北部)、米国西部 (オレゴン)、欧州 (アイルランド)、米国東部 (オハイオ)、アジアパシフィック (東京) の各 AWS リージョンでご利用いただけます。

Governed Tables、または行レベルおよびセルレベルのセキュリティで保護されたテーブルをクエリする場合は、スキャンしたデータ量 (最低 10 MB) に応じて料金を支払います。Governed Tables を使用する場合、トランザクションメタデータは追跡された S3 オブジェクトの数によって課金され、トランザクションリクエストの数に対して料金を支払います。自動圧縮は、処理されたデータに基づいて課金されます。詳細については、AWS Lake Formation の料金ページを参照してください。

これらの機能を実装する際、AWS GlueAmazon AthenaAmazon Redshift SpectrumAmazon QuickSight などのツールと統合された新しい Lake Formation Storage API が導入されました。このストレージ API をアプリケーションで直接使用して、SQL に似た構文でテーブルをクエリし (結合はサポートされていません)、Governed Tables とセルレベルのセキュリティの利点を得ることができます。

詳細については、プレビュー中に公開された以下の詳細なブログシリーズをご覧ください。

AWS Lake Formation を使用した効果的なデータレイク

これらの新機能を活用して、データレイクの作成と管理を簡素化しましょう。

Danilo

原文はこちらです。