Veröffentlicht am: Nov 19, 2021
Wir freuen uns, heute bekanntgeben zu können, dass Amazon Athena AWS-Glue-Data-Catalog-Partitionsindizes unterstützt, um die Abfrageplanung zu optimieren und die Abfragelaufzeit zu reduzieren. Wenn Sie eine Tabelle abfragen, die eine große Anzahl von Partitionen enthält, ruft Athena die verfügbaren Partitionen aus dem AWS Glue Data Catalog ab und ermittelt, welche für Ihre Abfrage erforderlich sind. Wenn neue Partitionen hinzugefügt werden, erhöht sich die zum Abrufen der Partitionen benötigte Zeit, was zu einer Verlängerung der Abfragezeit führen kann. AWS Glue Data Catalog ermöglicht es Kunden, Partitionsindizes zu erstellen, die den Zeitaufwand für das Abrufen und Filtern von Partitions-Metadaten in Tabellen mit zehn- und hunderttausenden von Partitionen reduzieren.
Die Verwendung von Partitionsindizes mit Athena ist ein einfacher, zweistufiger Prozess. Beginnen Sie mit der Auswahl der Spalten, die Sie indizieren möchten, aus dem Glue Data Catalog und starten Sie die Indexerstellung. Aktivieren Sie anschließend die Partitionsfilterung für Ihre Tabellen und kehren Sie zu Athena zurück, um Ihre Abfrage auszuführen. Weitere Informationen finden Sie unter Partitionsindexierung und -filterung in AWS Glue.
Partitionsindizes werden für neue und vorhandene Tabellen unterstützt, sodass Sie keine neuen Datensätze erstellen oder Abfragen neu schreiben müssen, um die Leistungsvorteile zu nutzen. Weitere Informationen finden Sie unter Verbessern der Amazon Athena-Abfrageleistung mit AWS-Glue-Data-Catalog-Partitionsindizes.
Partitionsindizes kommen auch den Analytik-Workloads zugute, die auf Amazon EMR, Amazon Redshift Spectrum und AWS Glue zusätzlich zu Amazon Athena ausgeführt werden. Weitere Informationen finden Sie unter Verbessern der Abfrageleistung mit AWS-Glue-Partitionsindizes.