AWS Lake Formation の特徴

AWS Lake Formation を使用すると、分析や機械学習 (ML) 用のデータを一元管理、保護、およびグローバルに共有することが容易になります。

Lake Formation では、AWS Glue データカタログを使用してデータのセキュリティとガバナンスを一元化できます。これにより、使い慣れたデータベーススタイルの機能を使用して、メタデータとデータ権限を 1 か所で管理できます。また、きめ細かなデータアクセス制御が可能なため、ユーザーが行レベルや列レベルに至るまで適切なデータにアクセスできるようにすることができます。その後、ユーザー全体に権限をスケールできます。

また、Lake Formation では、AWS Data Exchange を使用することで、組織内のデータ共有や外部でのデータ共有も容易になります。これにより、データメッシュを作成したり、データを移動させずに他のデータ共有ニーズに対応したりできます。

さらに、Lake Formation はデータインタラクションを役割やユーザーごとに追跡するため、包括的なデータアクセス監査が可能になり、適切なユーザーが適切なデータに適切なタイミングでアクセスしたことを確認できます。

データ権限を一元化

Lake Formation は、データベースやテーブルを含む AWS Glue データカタログのデータリソースに対する権限管理を一元化します。使い慣れたデータベースのような権限を使用して、ユーザーやアプリケーションのアクセスを役割ごとに定義および管理できます。これにより、データレイクにデータウェアハウスやデータベースをシンプルに活用できます。

Lake Formation は、データレイクのデータ用の中心的なアクセス制御を管理するための単一の場所を提供します。きめ細かなアクセス制御 (FGAC) を使用して、データベース、テーブル、列、行、およびセルレベルでデータへのアクセスを制限するセキュリティポリシーを定義できます。これらのポリシーは、AWS IAM ユーザーとロール、および外部のアイデンティティ・プロバイダを通じてフェデレートする場合のユーザーとグループに適用される。FGAC を使用して、Amazon Redshift SpectrumAmazon AthenaAWS Glue ETL、および Amazon EMR for Apache Spark 内の Lake Formation によって保護されたデータにアクセスできます。

AWS Lake Formation を使用すると、Amazon AthenaAmazon SageMakerAmazon Redshift、データ統合用の AWS Glue、ビッグデータ処理用の Amazon EMR のネイティブ統合により、AWS 分析サービス全体で一貫して権限を適用できます。AWS ID およびアクセス管理 (IAM) との統合により、ユーザーとロールを認証し、AWS 分析サービスと ML サービス全体にわたって権限を適用します。

Lake Formation はサードパーティのパートナーと統合されているため、権限管理を StarburstやDremio などの好みのエンジンにまで拡張できます。Lake Formation は Privacera や Collibra とも統合されているため、Lake Formation で権限を引き出したり、権限をプッシュしたりして、Privacera と Collibra の両方の権限管理機能を活用できます。Lake Formation のパートナーシップの詳細については、ドキュメントを参照してください。

セキュリティ管理とガバナンスを大規模に簡素化

Lake Formation では、タグベースのアクセス制御により、ユーザー間で権限を簡単にスケーリングできます。タグベースのアクセス制御を使用すると、データに属性を設定し、その属性に権限を適用してスケーリングできます。Lake Formation タグベースのアクセス制御 (LF-TBAC) は、タグ内のデータ属性を動的に使用して、データの変更に応じて権限をスケーリングします。

Lake Formationタグには、部門、製品ライン、データ所有権、データの機密性 (公開または非公開など)、データ分類 (社会保障番号、電話番号など) など、独自のビジネスルールやオントロジーをすばやく入力できます。AWS Glue 機密データ検出などの統合された AWS サービスを使用して、タグ値を動的に管理できます。AWS Glue Sensitive Data Detection は、さまざまな個人を特定できる情報 (PII) やクレジットカード番号などのその他の機密データを識別できるため、データ監査目的や機密情報のタグ付けに役立ちます。

データを理解して共有する

Lake Formation では、AWS Glue データカタログ内のデータベースとテーブルに対する権限を構築できます。これにより、AWS Glue データカタログをデータの管理と共有のハブとして使用できます。AWS Glue データカタログフェデレーション機能を使用すると、独自の Hive メタストアまたは Amazon Redshift データ共有によってカタログ化されたデータへのアクセス権限を拡張できます。AWS Glue データカタログを通じて表示されるデータセットにアクセス権限を設定して適用できるため、データがどこにあってもデータへのアクセスを簡単に制御できます。

AWS Lake Formation では、ETL なしでデータを共有できるため、ユーザーのアクセスを確保しつつ、データの管理が容易になります。Lake Formation はデータ共有を簡素化し、データメッシュの作成やその他のデータ共有ニーズに対応できるようにします。Lake Formation のクロスアカウントおよびクロスリージョンのデータリンク機能により、ユーザーは複数の AWS アカウント、AWS Organizations、AWS リージョンに分散したデータレイクを安全に共有できます。最後に、Lake Formation のデータ共有では、データを共有する相手を直接制御できます。たとえば、他のアカウントの正確な IAM プリンシパルを選択して、共有後にデータの所有者が確実に管理できるようにするなどです。

AWS Lake Formation を使用すると、ライセンスやその他の用途を目的として、組織の外部で企業間データを共有できます。Lake Formation は AWS Data Exchange (クラウド内のサードパーティデータを検索、購読、使用できる AWS サービス) と統合されているため、データを移動したりコピーしたりせずに外部の企業とデータを共有できます。

AWS Glue データカタログの Lake Formation 権限があれば、ユーザーはテキストベースのオンライン検索機能を利用でき、AWS Glue データカタログ内のデータをより深く理解できるようになります。名前、内容、機密性、またはその他の定義済みのカスタムラベルで関連データを検索できます。

データアクセスを監視し、コンプライアンスの確保を支援します

Lake Formation は、CloudTrail で包括的なログ監査をオンにして、アクセスをモニタリングし、一元的に定義されたポリシーに準拠していることを示すことができます。データレイクのデータを読み取る分析と機械学習のサービス全体で、データへのアクセス履歴を監査できます。これにより、どのユーザーまたはロールがどのデータに、どのサービスで、いつアクセスしたかを確認できます。CloudTrail API とコンソールを使用して他の CloudTrail ログにアクセスするのと同じ方法で、監査ログにアクセスできます。