Veröffentlicht am: Oct 21, 2022
Wir freuen uns, heute den Support für die Reduzierung der Dimensionalität mithilfe der Hauptkomponentenanalyse (Principal Components Analysis (PCA)) in Amazon SageMaker Data Wrangler bekannt geben zu können. Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit Data Wrangler kannst du den Prozess der Datenvorbereitung und des Feature Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -bereinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. PCA ist ein beliebtes Verfahren zur Analyse großer Datensätze mit einer hohen Anzahl von Dimensionen pro Beobachtung und ein hilfreiches statistisches Verfahren zur Reduzierung der Dimensionalität eines Datensatzes für die Verwendung mit gängigen ML-Algorithmen wie XgBoost und Random Forest. Um eine PCA bei einem Datensatz durchzuführen, mussten Datenwissenschaftler bisher geeignete Bibliotheken finden und Code schreiben, um hochdimensionale Daten zu reduzieren.
Mit dem Support für PCA in Data Wrangler kannst du jetzt ganz einfach die Dimensionalität eines hochdimensionalen Datensatzes mit nur wenigen Klicken reduzieren. Du kannst auf PCA durch die Auswahl von „Dimensionality Reduction“ (Reduzierung der Dimensionalität) aus dem „Schritte hinzufügen“-Workflow zugreifen. Die eingebaute Spaltenauswahl ermöglicht es dir, ganz einfach alle numerischen Spalten automatisch auszuwählen und die Anzahl der beizubehaltenden Hauptkomponenten anzugeben. Optional kannst du den entsprechenden Varianzschwellenwert in Prozent angeben und Data Wrangler wird automatisch die entsprechende Anzahl von Komponenten bestimmen, die in deinem transformierten Datensatz beibehalten werden sollen.
Diese Funktion ist allgemein in allen AWS-Regionen, die Data Wrangler aktuell unterstützt, ohne zusätzliche Kosten verfügbar. Um mit der Planung deiner Datenverarbeitungsaufträge mit SageMaker Data Wrangler zu beginnen, lies die AWS-Dokumentation.