Amazon Web Services ブログ
AWS re:Invent 2023 において発表された Amazon Redshift の様々な新機能 〜 すべてのデータに対して分析を可能に
2013 年、アマゾン ウェブ サービスは、初のフルマネージド型でペタバイト規模のエンタープライズグレードクラウドデータウェアハウスである Amazon Redshift を発表し、データウェアハウス業界に革命をもたらしました。Amazon Redshift によって、既存のビジネスインテリジェンスツールを使用して大量のデータを容易かつ費用対効果の高い方法で効率的に分析できるようになりました。このクラウドサービスは、従来の高価で伸縮性がなく、かつ調整と運用に多大な専門知識が必要だったデータウェアハウスソリューションから大きく飛躍したものでした。それ以降、お客様はさまざまな変化に対応する上で、より優れたスケーラビリティ、より高いスループット、俊敏性を求めています。ビジネスクリティカルな分析と機械学習のユースケースは爆発的に増加しており、私たちはその変化のスピードに追従しています。現在、何万ものお客様が AWS のグローバルインフラストラクチャで Amazon Redshift を使用して、毎日エクサバイト単位のデータを処理しています。また、Amazon Redshift をデータアーキテクチャの主要なコンポーネントとして採用し、一般的なダッシュボードからセルフサービス分析、リアルタイム分析、機械学習、データ共有と収益化など様々なユースケースで活用を進めています。
AWS re:Invent 2023 で発表された Amazon Redshift の進化は、クラウド分析環境のモダナイズ化をさらに加速し、規模を問わず最高のコストパフォーマンスを実現するという当社の基本理念を継続していきます。これらの発表は、すべてのデータを統合する AWS のゼロ ETL のビジョンを推進するものです。これにより、包括的な分析と機械学習機能によってデータの価値を最大化し、組織内および組織間の安全なデータコラボレーションによりイノベーションをさらに迅速化できます。コストパフォーマンスの向上からゼロ ETL、生成系 AI 機能まで、すべての方に有益となるサービスや機能を取り揃えています。それではハイライトを見ていきましょう。
スケール、パフォーマンス、信頼性を高めるためのアナリティクスのモダナイズ
“従来のオンプレミスプラットフォームから Amazon Redshift に移行することで、データの取り込みが 88% 速くなり、データのクエリが 3 倍速くなり、日次でデータをクラウドに読み込む処理が 6 倍速くなりました。Amazon Redshift により、パフォーマンス、可用性、信頼性を最適化できました。これにより、オペレーションの複雑さが大幅に緩和され、製造現場でのエンドユーザーの意思決定エクスペリエンスのスピードも向上しました。”
– Sunil Narayan, Sr Dir, Analytics at GlobalFoundries
新たな改善により、規模を問わず最高のコストパフォーマンスを実現する取り組みを推進
Amazon Redshift は、当初からコストを抑えながら最適なパフォーマンスを実現するための革新的な機能を構築してきました。Amazon Redshift は、他のクラウドデータウェアハウスよりも最大 6 倍優れたコストパフォーマンスと、ダッシュボーディングアプリケーション用途では高い同時実行性と低レイテンシー性能を備えており、引き続きコストパフォーマンス面でリードしています。弊社ではクエリパターンを綿密に分析し、顧客中心のイノベーションを推進する機会を模索しています。例えば、2023年の初めに、文字列ベースのデータ処理を、LZO (Lempel-Ziv-Oberhumer) や ZStandard などの圧縮エンコーディングと比較して最大 63 倍高速化すると発表しました。AWS re:Invent 2023 では、ブルームフィルターの強化、クエリの書き換え、Auto Scaling での書き込み操作のサポートなど、クエリのプランニングと実行におけるパフォーマンスのさらなる強化を導入しました。パフォーマンス改善機能の詳細については、以下の発表リストを参照してください。
Amazon Redshift Serverless は 新しい AI 駆動スケーリングと最適化によりこれまで以上にインテリジェントに
コストパフォーマンスについて言えば、Amazon Redshift Serverless の新しい次世代 AI 駆動スケーリングおよび最適化機能により、手動介入なしに、変動するワークロード に対して最大 10 倍優れたコストパフォーマンスを実現(社内テストに基づく) できます。2021 年から一般提供されている Amazon Redshift Serverless を使用すると、データウェアハウスをプロビジョニングして管理しなくても、分析の実行やスケールができます。一般提供開始以来、Redshift Serverless は 10 億件を超えるクエリを実行して、何千もの顧客がデータインサイトを獲得してきました。新しい AI 最適化機能により、Amazon Redshift Serverless は、データ量、同時接続ユーザー、クエリの複雑さなど、すべての主要な側面にわたるワークロードの変化に応じて、プロアクティブかつ自動的にスケーリングされます。コストを最適化するか、パフォーマンスを最適化するか、またはそのバランスを取るか、望ましい価格性能目標を指定するだけで、Redshift サーバーレスがその要件に合うよう最適化します。Redshift サーバーレスのその他の改善点について詳しくは、末尾の発表リストをご覧ください。
データ共有によるマルチデータウェアハウスの書き込み
データ共有は Amazon Redshift で広く採用されている機能で、お客様は共有データに対して毎日何千万ものクエリを実行しています。この機能を利用することで、事前にデータをコピーしたり移動したりすることなく、読み取り目的で組織・リージョン内、および組織・リージョン間でトランザクションの一貫を保ちながらライブデータを共有することができます。お客様は、データ共有機能を利用して分析環境を従来のモノリシックな構成から、マルチクラスタのデータメッシュ構成へとモダナイズしています。これによって、組織全体でシームレスかつ安全なデータアクセスが可能になり、データコラボレーションと強力なインサイト獲得が促進されます。AWS re:Invent 2023 ではさらにデータ共有機能を拡張して、マルチデータウェアハウスへの書き込みを開始(プレビュー)し、わずか数クリックで他の Redshift から 異なる Redshift データベースへの書き込みを開始できるようになりました。これにより、コストパフォーマンスのニーズに基づいてさまざまなタイプとサイズのウェアハウスを追加することで、データコラボレーション、ETL/データ処理ワークロードのコンピューティングの柔軟なスケーリングが可能になります。各ウェアハウスは個別のコンピュート使用量に対して課金されるため、コンピューティング使用量の透明性が高まり、その結果、コストを抑えることができます。
多次元データレイアウト
Amazon Redshift は、業界をリードする予測最適化機能を備えています。これにより、ワークロードを継続的に監視し、データウェアハウスをより多く利用するにつれて自動的にデータレイアウトとコンピューティング管理を最適化し、性能をシームレスに高めると共にクエリ同時実行性を最大化します。自動テーブルソート、自動的なソートキー・分散キーの選択など、Redshift がすでに提供している強力な最適化機能に加えて、入力されるクエリのフィルタ条件 (特定の地域の売上など) に基づいてデータを自動的にソートすることで繰り返し実行されるクエリのパフォーマンスを向上させる新しい強力なテーブルソートメカニズムである多次元データレイアウトを導入しました。この方法では、従来の方法に比べてテーブルスキャンのパフォーマンスが大幅に向上します。
ゼロ ETL のアプローチですべてのデータを統合
“Aurora MySQL Zero-ETL 統合を使用することで、Aurora MySQL データベースと Amazon Redshift の間でニアリアルタイムのデータ同期が可能になり、分析環境を構築するために開発者が費やしていた時間は、以前は 1 か月要していたところ、わずか3時間で実現できるようになりました。”
– Money Forward i
JOYME は、Amazon Redshift のストリーミング取り込み機能やその他の Amazon サービスを使用して、リチャージ、返金、報酬などのユーザーのファイナンス活動のリスク管理を行っています。
“Redshift を利用することで、リスク対象とデータを時間単位ではなくニアリアルタイムで確認することができます。当社のビジネス ROI 効率を大幅に改善しました。”
– PengBo Yang, CTO, JOYME
データパイプラインは、構築と管理が困難でコストがかかる場合があり、分析用のトランザクションデータを取得するのに何時間もかかる場合があります。このような遅延はビジネスチャンスを逃すことにつながります。特に、トランザクションデータの分析から導き出された洞察が限られた時間しか意味を持たない場合はなおさらです。Amazon Redshift は AWS のゼロ ETL アプローチを採用しています。これにより、データウェアハウスとオペレーションデータベース、さらにはストリーミングデータサービス間の相互運用性と統合が可能になるため、データをウェアハウスに容易かつ自動的に取り込んだり、データが存在する場所に直接アクセスしたりできます。
オペレーションデータベースとの ゼロ ETL 統合
2023年、Amazon Aurora MySQL と Amazon Redshift 間でゼロ ETL 統合を実現しました(一般提供開始)。これにより、Amazon Aurora からのペタバイト単位のトランザクションデータに対して、Amazon Redshift を使用してニアリアルタイムの分析と機械学習(ML)が可能になりました。トランザクションデータが Aurora に書き込まれてから数秒以内に、データが Amazon Redshift で利用できるようになるため、抽出、変換、ロード (ETL) 操作を実行するために複雑なデータパイプラインを構築して維持する必要はありません。AWS re:Inventでは、ゼロ ETL 統合を他のデータソース、特に Aurora PostgreSQL、Dynamo DB、Amazon RDS MySQL にも拡張しました。また、ゼロ ETL 統合によって、新規または既存の Amazon Redshift インスタンスで複数のオペレーションデータベースクラスターからデータをロードして分析し、多くのアプリケーションにわたる総合的な洞察を引き出すこともできます。
データレイククエリが Apache Iceberg テーブルをサポート
Amazon Redshift では、さまざまなオープンファイルおよびテーブル形式をサポートしているため、お客様はデータウェアハウスとデータレイクで幅広いワークロードを実行できます。AWS re:Invent では、Apache Iceberg テーブルのサポートが一般提供されることを発表しました。これにより、Amazon Redshift からデータレイク上の Apache Iceberg テーブルに容易にアクセスでき、必要に応じてデータウェアハウス内のデータと結合できます。Amazon Redshift に自動マウントされた AWS Glue データカタログを使用して、ワンクリックでデータレイクテーブルにアクセスできるため、操作が容易になります。その他、AWS Glue 統計情報と統合することでデータレイクのクエリのパフォーマンスを向上させ、さらにデータレイク上のデータのマテリアライズドビューにインクリメンタルリフレッシュ機能追加(プレビュー)を発表し、繰り返されるクエリ実行を高速化できるようになりました。
ゼロ ETL 統合、データレイクのパフォーマンス強化、その他の発表について詳しくは、末尾をご覧ください。
包括的な分析機能と ML 機能で価値を最大化
“Amazon Redshift は、Jobcase を企業として成長させる上で私たちが持っていた最も重要なツールの 1 つです。”
– Ajay Joshi, Distinguished Engineer, Jobcase
すべてのデータが統合され、利用可能になったら、AI/ML/生成系 AI アプリケーションへのニアリアルタイムの分析を容易に構築して実行できます。ハイライトをいくつかご紹介します。全リストは末尾をご覧ください。
Amazon Q の Generative SQL(生成系 SQL) 機能
Amazon Redshift クエリエディタは、すぐに使えるウェブベースの SQL エクスペリエンスを提供し、データ探索、視覚分析、データコラボレーションに利用される人気のツールです。AWS re:Invent では、Amazon Redshift クエリエディタに Amazon Q Generative SQL(生成系 SQL)機能を発表 (プレビュー) しました。これにより、自然言語でクエリを表現してSQLコードのレコメンドを受けることができるため、クエリの作成が容易になり、生産性が向上します。Generative SQLは、AI を使用してユーザーの意図、クエリパターン、スキーマメタデータを分析し、一般的な SQL クエリパターンを直接識別します。これにより、組織の複雑なデータベースメタデータに関する幅広い知識がなくても、会話形式でより迅速に洞察を得ることができます。
Amazon Redshift ML 大規模言語モデル (LLM) 統合
Amazon Redshift ML により、お客様は使い慣れた SQL コマンドを使用して機械学習モデルを作成、トレーニング、デプロイできます。お客様は Redshift ML を使用して、データウェアハウス内で 1 日に平均 100 億件を超える予測を実行しています。AWS re:Invent では、プレビューとして LLM のサポートを発表しました。Amazon SageMaker JumpStart では、事前にトレーニングされたオープンソースの LLM を Redshift ML の一部として使用できるようになりました。これにより、LLM の力を分析にもたらすことができます。たとえば、Amazon Redshift で製品フィードバックデータを推測したり、LLM を使用してフィードバックを要約したり、エンティティ抽出、感情分析、製品フィードバック分類を実行したりすることができます。
組織内および組織間の安全なデータコラボレーションにより、イノベーションを加速
“何百万もの企業が Stripe のソフトウェアと API を使用して、支払いの受け付け、支払いの送信、ビジネスのオンライン管理を行っています。Amazon Redshift のような主要なデータウェアハウスを介して Stripe データにアクセスすることは、お客様から最も要望の多かったものでした。当社のお客様は、複雑なデータパイプラインを構築したり、データを移動したりコピーしたりすることなく、安全で高速な統合分析を大規模に必要としていました。Amazon Redshift 用 Stripe データパイプラインにより、お客様が数回のクリックで直接的で信頼性の高いデータパイプラインをセットアップできるよう支援しています。Stripe Data Pipeline により、お客様は最新かつ完全な Stripe データを Amazon Redshift データウェアハウスと自動的に共有し、ビジネス分析とレポートを次のレベルに引き上げることができます。”
– Tony Petrossian, Head of Engineering, Revenue & Financial Management at Stripe
Amazon Redshift を使用すると、チームやデータがどこに存在しても、容易かつ安全にデータを共有し、共同作業を行うことができます。また、どこで事業を展開していても、また厳しい規制のある業界においても、データの安全性を確保できます。きめ細かな権限や、組織アイデンティティのシングルサインオンによる容易な認証が可能になりました。これらはすべて追加費用なしで提供されます。
AWS IAM Identity Center 統合
Amazon Redshift と AWS IAM Identity Center 統合を発表しました。これにより、組織は Amazon QuickSight、Amazon Redshift クエリエディタ、および Amazon Redshift 間の信頼されたアイデンティティプロパゲーションをサポートできるようになります。Microsoft Entra ID、Okta、Ping、OneLogin などのサードパーティの ID プロバイダ (IdP) と連携することもでき、組織の ID によるシングルサインオンで Amazon QuickSight や Amazon Redshift クエリエディタから Amazon Redshift にアクセスできます。管理者は、サードパーティの ID プロバイダーのユーザーとグループを使用して、サービス全体のデータへのアクセスをきめ細かく管理し、AWS CloudTrail でユーザーレベルのアクセスを監査できます。この信頼できる ID 連携により、ユーザーの ID は Amazon QuickSight と Amazon Redshift の間でシームレスに連携され、インサイトを得るまでの時間を短縮し、スムーズな分析が可能になります。
発表の全文については、以下を参照してください:
- スケール、パフォーマンス、信頼性を高めるためのアナリティクスのモダナイズ
- What’s new – New AI-driven scaling and optimizations in Amazon Redshift Serverless (Preview)
- What’s new – Multi-data warehouse writes through data sharing (Preview)
- What’s new – Multi-Dimensional Data Layouts (Preview)
- What’s new – Support for Multi-AZ deployments in GA
- What’s new – Concurrency scaling now supports Create Table As Select
- What’s new – Enhanced manageability and usability features for Amazon Redshift Serverless
- Redshift price-performance improvements
- ゼロ ETL のアプローチですべてのデータを統合
- What’s new – Amazon Aurora PostgreSQL zero-ETL integration with Amazon Redshift (Preview)
- What’s new – Amazon RDS for MySQL zero-ETL integration with Amazon Redshift (Preview)
- What’s new – Amazon DynamoDB zero-ETL integration with Amazon Redshift (Preview)
- What’s new – Support for Apache Iceberg tables in GA
- What’s new – Incremental refreshes on materialized views (Preview)
- What’s new – Integration with AWS Glue column-level statistics
- 包括的な分析機能と ML 機能で価値を最大化
- What’s new – Amazon Q Generative SQL in Amazon Redshift (Preview)
- What’s new – Large Language Model support in Amazon Redshift (Preview)
- What’s new – AWS Glue support for multi engine views with AWS Analytics Engines
- What’s new – Integration with visual studio code
- What’s new – Autocomplete suggestions in Amazon Redshift Query Editor V2
- 組織内および組織間の安全なデータコラボレーションにより、イノベーションを加速
- What’s new – Trusted Identity propagation with IAM Identity Center
- What’s new – New Fine grained access control capabilities (Preview)
- What’s new – Integration with secrets manager
- What’s new – Row level security enhancements
- What’s new – Metadata security for multi-tenant applications
さらに詳しく: https://aws.amazon.com/redshift
著者について
Neeraja Rentachintala は、Amazon Redshift のプリンシパル・プロダクト・マネージャーです。Neeraja は、プロダクトマネジメントと GTM の分野で経験を積んできたリーダーであり、データ製品やプラットフォームにおけるプロダクトビジョン、戦略、リーダーとしての役割において 20 年以上の経験を積んできました。Neeraja は、分析、データベース、データ統合、アプリケーション統合、AI/機械学習、オンプレミスとクラウドにわたる大規模な分散システムなどの製品を提供し、MapR(HPEが買収)、Microsoft SQL Server、Oracle、Informatica、Expedia.comなどのベンチャー企業の一部としてフォーチュン500企業にサービスを提供しました。
Sunaina AbdulSalah は、Amazon Redshift のプロダクトマーケティングをリードしています。彼女は、データウェアハウスと分析の影響について顧客を教育し、AWS の顧客事例を共有することに重点を置いています。彼女は、B2B テクノロジーとクラウドコンピューティングの分野におけるマーケティングと GTM 機能の深い経歴を持っています。仕事以外では、家族や友人と過ごしたり、旅行を楽しんだりしています。
原文はこちらです。
翻訳はソリューションアーキテクトの鈴木 浩之が担当しました。