Tables Amazon S3

Optimisez les performances et les coûts des requêtes à mesure que votre lac de données évolue

Stockez des données tabulaires à grande échelle dans S3

Les tables Amazon S3 fournissent un premier magasin d’objets dans le cloud avec la prise en charge intégrée d’Apache Iceberg et rationalisent le stockage des données tabulaires à mise à échelle. L’optimisation continue des tables analyse et réécrit automatiquement les données des tables en arrière-plan, ce qui permet d’obtenir des performances de requête jusqu’à 3 fois plus rapides que celles des tables Iceberg non gérées. Ces optimisations des performances continueront de s’améliorer au fil du temps. En outre, les tables S3 incluent des optimisations spécifiques aux charges de travail Iceberg qui génèrent jusqu’à 10 fois plus de transactions par seconde que les tables Iceberg stockées dans des compartiments S3 à usage général. Pour plus de détails sur l’amélioration des performances des requêtes sur les tables S3, consultez le blog.

Grâce à la prise en charge des tableaux S3 pour la norme Apache Iceberg, vos données tabulaires peuvent être facilement interrogées par les principaux moteurs de requête AWS et tiers. Utilisez les tables S3 pour stocker des données tabulaires telles que les transactions d’achat quotidiennes, les données des capteurs de streaming ou les impressions d’annonces sous forme de table Iceberg dans S3, et optimisez les performances et les coûts à mesure que vos données évoluent grâce à la maintenance automatique des tables. Consultez le blog pour en savoir plus.

Avantages

Simplifiez les lacs de données à n’importe quelle échelle, que vous soyez débutant ou que vous gériez des milliers de tables dans votre environnement Iceberg.

Obtenez des performances de requête jusqu’à 3 fois plus rapides grâce à l’optimisation continue des tables par rapport aux tables Iceberg non gérées, et jusqu’à 10 fois plus de transactions par seconde par rapport aux tables Iceberg stockées dans des compartiments S3 à usage général.

Effectuez des tâches de maintenance continue des tables telles que le compactage, la gestion des instantanés et la suppression des fichiers non référencés afin d’optimiser automatiquement l’efficacité des requêtes et les coûts au fil du temps.

Accédez aux fonctionnalités analytiques avancées d’Iceberg et interrogez des données à l’aide de services AWS courants tels qu’Amazon Athena, Redshift et EMR grâce à l’intégration des tableaux S3 à Amazon SageMaker Lakehouse. En outre, vous pouvez utiliser des applications tierces compatibles Iceberg REST, telles qu’Apache Spark, Apache Flink, Trino, DuckDB et PyIceberg, pour lire et écrire des données dans des tableaux S3.

Créez des tables en tant que ressources AWS de premier ordre et appliquez des autorisations pour gérer facilement l’accès à ces tables.

Le principe est le suivant :

Les tables S3 fournissent un stockage S3 spécialement conçu pour stocker des données structurées au format Apache Parquet. Dans un compartiment de tables, vous pouvez créer des tables en tant que ressources de première classe directement dans S3. Ces tables peuvent être sécurisées par des autorisations au niveau de la table définie dans des politiques basées sur l’identité ou les ressources et sont accessibles par des applications ou des outils qui prennent en charge la norme Apache Iceberg. Lorsque vous créez une table dans votre compartiment de tables, les données sous-jacentes dans S3 sont stockées sous forme de données Parquet. Ensuite, S3 maintient les métadonnées nécessaires pour rendre ces données Parquet interrogeables par vos applications. Les compartiments de tables comprennent une bibliothèque client utilisée par les moteurs de requête pour naviguer et mettre à jour les métadonnées Iceberg des tables de votre compartiment de tables. Cette bibliothèque, associée aux API S3 mises à jour pour les opérations sur les tables, permet à plusieurs clients de lire et d’écrire en toute sécurité des données dans vos tables. Au fil du temps, S3 optimise automatiquement les données Parquet sous-jacentes en réécrivant ou en « compactant » vos objets. Le compactage optimise vos données sur S3 afin d’améliorer les performances des requêtes et de minimiser les coûts. Consultez le guide de l’utilisateur pour en savoir plus.

Vidéo de démonstration d’Amazon S3 Tables

Clients

  • Genesys

    Genesys est un leader mondial du cloud en matière d’orchestration d’expériences basée sur l’IA. Grâce à des fonctionnalités avancées d’IA, de numérique et de gestion de l’engagement du personnel, Genesys aide plus de 8 000 organisations dans plus de 100 pays à proposer des expériences personnalisées et empathiques à leurs clients et à leurs employés, tout en bénéficiant d’une agilité et de résultats commerciaux améliorés.

    Les Tables Amazon S3 apporteront une touche de transformation à notre architecture de données, notamment grâce à sa prise en charge gérée d’Iceberg, qui crée efficacement une couche de vue matérialisée répondant à divers besoins d’analyse de données. Cette offre peut aider Genesys à simplifier les flux de données complexes en éliminant les couches supplémentaires de gestion des tables. S3 prend en charge automatiquement les tâches de maintenance clés telles que le compactage, la gestion des instantanés et le nettoyage des fichiers non référencés. La possibilité de lire et d’écrire des tables Iceberg directement depuis S3 nous aidera à améliorer les performances et à créer de nouvelles possibilités pour intégrer les données de manière fluide dans notre écosystème analytique. Cette interopérabilité, combinée à l’amélioration des performances, place les Tables S3 au cœur de notre future stratégie visant à fournir des informations de données rapides, flexibles et fiables.

    Glenn Nethercutt, directeur de la technologie chez Genesys
  • Pendulum

    Pendulum est une plateforme d’intelligence de marque qui offre la couverture la plus complète au monde en matière de contenu vidéo, audio et textuel afin d’identifier de manière proactive les risques et les opportunités, permettant ainsi une meilleure prise de décision et l’analytique de suivi dans l’ensemble de l’entreprise.

    Chez Pendulum Intelligence, nous analysons les données provenant de centaines de millions de sources et de canaux sociaux. Les tableaux Amazon S3 ont transformé la façon dont nous gérons notre lac de données, qui traite des milliers d’heures de contenu vidéo et audio analysé tout en extrayant le contexte des images et d’autres médias en temps quasi réel à l’aide de nos outils de machine learning propriétaires. En éliminant la charge liée à la gestion des tables, y compris le compactage, les instantanés et le nettoyage des fichiers, notre équipe peut se concentrer sur ce qui compte le plus : tirer des informations exploitables à partir de grands jeux de données. L’intégration fluide avec notre pile d’analytique (Amazon Athena, AWS Glue et Amazon EMR) a considérablement amélioré notre capacité à traiter des données complexes à grande échelle.

    Abdurrahman Elbuni, architecte du big data dans le cloud, Pendulum
  • SnapLogic

    SnapLogic est un pionnier de l’intégration pilotée par l’IA. La plateforme SnapLogic pour l’intégration générative accélère la transformation numérique au sein de l’entreprise pour concevoir, déployer et gérer des agents d’IA et une intégration qui automatisent les tâches, prennent des décisions en temps réel et s’intègrent sans effort aux flux de travail existants.

    Les tables Amazon S3, avec la prise en charge intégrée d’Apache Iceberg et l’intégration des services d’analytiques AWS, aident les entreprises à optimiser leurs coûts d’analytiques des données tout en transformant la façon dont elles utilisent les données d’entreprise pour les initiatives d’analytiques, de conformité et d’IA. En automatisant les tâches complexes de gestion des données et en fournissant des pistes d’audit complètes des modifications apportées aux données, les équipes peuvent analyser instantanément les données historiques, maintenir la conformité réglementaire et accélérer les informations commerciales tout en réduisant considérablement leurs coûts technologiques.

    Dominic Wellington, architecte d’entreprise chez SnapLogic
  • Zus Health

    Zus est une plateforme de données de santé partagée conçue pour accélérer l’interopérabilité des données de santé en fournissant des données sur les patients faciles à utiliser via une API, des composants intégrés et des intégrations directes des dossiers médicaux électroniques.

    En tant qu’entreprise du secteur de la santé traitant des quantités massives de données de patients changeant fréquemment, nous avons décidé d’investir dans Apache Iceberg parce qu’il résout de nombreux problèmes avec Apache Hive en matière de partitionnement et d’automatisation, avec l’avantage supplémentaire d’une plus grande interopérabilité. L’un de nos plus grands défis avec Iceberg a été de comprendre et de gérer l’optimisation des tables. C’est pourquoi nous sommes enthousiasmés par les Tables S3 et les capacités d’optimisation gérées. Le fait de pouvoir décharger les développeurs de la maintenance des tables nous permettra de nous concentrer davantage sur la fourniture de données de haute qualité et d’informations précieuses à nos clients.

    Sonya Huang, ingénieure logicielle consultante chez Zus Health

Partenaires et intégrations

  • Daft

    Daft est un moteur unifié pour l’ingénierie des données, l’analytique et le ML/l’IA, exposant à la fois les interfaces SQL et Python DataFrame comme des objets de première classe. Il est écrit en Rust. Daft propose une expérience interactive locale rapide et agréable, tout en s’adaptant parfaitement à des charges de travail distribuées de l’ordre du pétaoctet.

    Les tableaux Amazon S3 sont le complément parfait à la prise en charge d’Apache Iceberg par Daft. En tirant parti de ses intégrations avec AWS Lake Formation et AWS Glue, nous avons pu étendre sans effort nos fonctionnalités de lecture et d’écriture Iceberg existantes aux tableaux S3 tout en tirant parti de ses performances optimisées. Nous attendons avec impatience l’évolution de ce nouveau service et sommes ravis de fournir la meilleure prise en charge des tableaux S3 pour l’écosystème Python Data Engineering et ML/IA.

    Sammy Sidhu, PDG et cofondateur, Daft
  • Dremio

    Dremio est la plateforme intelligente Lakehouse qui accélère l’IA et l’analytique en proposant un moteur SQL leader du marché, un catalogue de données ouvert et interopérable et une plateforme sécurisée, évolutive et simple à utiliser. Notre leadership au sein des communautés Apache Iceberg, Apache Polaris (en incubation) et Apache Arrow permet aux organisations de créer des architectures Lakehouse entièrement ouvertes et performantes tout en conservant flexibilité et contrôle, éliminant ainsi toute dépendance vis-à-vis des fournisseurs.

    Dremio a le plaisir de soutenir la disponibilité générale des tableaux Amazon S3. En prenant en charge la spécification Apache Iceberg REST Catalog (IRC), les tableaux S3 garantissent une interopérabilité fluide avec Dremio, permettant aux utilisateurs de bénéficier d’un moteur SQL performant capable d’interroger des tables Apache Iceberg gérées dans des compartiments de tableaux S3 optimisés. Cette collaboration renforce l’importance des normes ouvertes dans l’écosystème des lacs, en éliminant la complexité de l’intégration et en accélérant l’adoption par les clients. Grâce aux tableaux Amazon S3 et au support IRC, les entreprises bénéficient de la flexibilité et du choix nécessaires pour créer une architecture Lakehouse unifiée à l’ère de l’IA.

    James Rowland-Jones, vice-président des produits, Dremio
  • DuckDB Labs

    DuckDB Labs est la société fondée par les créateurs de DuckDB, un outil universel de gestion des données très répandu. La société emploie les principaux contributeurs au système DuckDB. DuckDB est un logiciel libre et open source sous licence MIT et est régi par la fondation indépendante à but non lucratif DuckDB. Le projet DuckDB met le traitement analytique rapide à la disposition d’un large public grâce à sa facilité d’utilisation et à sa portabilité.

    Les tableaux Amazon S3 s’inscrivent parfaitement dans la vision de DuckDB visant à démocratiser l’analytique des données à l’aide de formats de fichiers ouverts. La collaboration entre AWS et DuckDB Labs nous permet d’étendre encore la prise en charge d’Iceberg dans DuckDB et de développer une intégration fluide avec les tableaux S3. Nous pensons que la logique de batteries partagées de DuckDB et des tableaux S3 se combine en une pile analytique puissante qui peut gérer un large éventail de charges de travail tout en maintenant une barrière d’entrée incroyablement faible.

    Hannes Mühleisen, directeur général, DuckDB Labs
  • HighByte

    HighByte est une société de logiciels industriels qui répond aux défis d’architecture et d’intégration des données auxquels sont confrontés les fabricants mondiaux dans le cadre de leur transformation numérique. HighByte Intelligence Hub, le logiciel Industrial DataOps éprouvé de la société, fournit des données modélisées et prêtes à l’emploi aux services Cloud AWS à l’aide d’une interface sans code pour accélérer le temps d’intégration et l’analytique.

    Les tableaux Amazon S3 sont une nouvelle fonctionnalité puissante qui optimise la gestion, les performances et le stockage des données tabulaires pour les charges de travail analytiques. L’intégration directe de HighByte Intelligence Hub aux tableaux Amazon S3 permet aux fabricants mondiaux de créer facilement un lac de données transactionnel ouvert pour leurs données industrielles. Les tableaux S3 permettent d’interroger instantanément les données brutes Parquet, ce qui permet aux clients d’envoyer des informations contextualisées de la périphérie vers le cloud pour une utilisation immédiate sans traitement ni transformation supplémentaire. Cela a un impact majeur sur les performances et l’optimisation des coûts pour nos clients communs.

    Aron Semle, directeur de la technologie, HighByte
  • PuppyGraph

    PuppyGraph est le premier moteur de requête orientée graphes sans ETL en temps réel, qui permet aux équipes chargées des données d’interroger un Lakehouse existant sous forme de graphique en quelques minutes, sans migration ni maintenance coûteuses. Il s’adapte à des jeux de données de la taille de plusieurs pétaoctets et exécute des requêtes complexes à sauts multiples en quelques secondes, ce qui permet de répondre à des cas d’utilisation allant de la détection des fraudes à la cybersécurité, en passant par les informations basées sur l’IA.

    Amazon S3 constitue depuis longtemps la base de l’infrastructure de données moderne, et le lancement des tableaux S3 marque une étape importante : Apache Iceberg est sur le point de devenir la norme universelle en matière de données et d’IA. Cette innovation permet aux entreprises de tirer parti de formats de table ouverts performants sur S3, permettant ainsi une analytique multimoteur sans duplication des données. Pour les clients de PuppyGraph, cela signifie qu’ils peuvent désormais exécuter des requêtes orientées graphes en temps réel directement sur leurs données S3, en conservant des informations actualisées et évolutives sans les frais liés à un processus ETL complexe. Nous sommes ravis de participer à cette évolution, en rendant l’analytique de graphes aussi fluide que les données elles-mêmes.

    Weimo Liu, cofondateur et PDG, PuppyGraph
  • Snowflake

    Snowflake rend l’IA d’entreprise facile, connectée et fiable. Des milliers d’entreprises du monde entier, dont des centaines des plus grandes du monde, utilisent le cloud de données IA de Snowflake pour partager des données, créer des applications et dynamiser leur activité grâce à l’IA.

    Nous sommes ravis d’apporter la magie de Snowflake aux tableaux Amazon S3. Cette collaboration permet aux clients de Snowflake de lire et de traiter de manière fluide les données stockées dans les tableaux S3 en utilisant leurs configurations Snowflake existantes, éliminant ainsi le besoin de migrations ou de duplications de données complexes. En combinant les capacités d’analytique des performances de pointe de Snowflake avec le stockage efficace des tables Apache Iceberg par les tableaux Amazon S3, les organisations peuvent facilement interroger et analyser les données tabulaires stockées dans Amazon S3.

    Rithesh Makkena, directeur mondial de l’ingénierie des solutions pour les partenaires, Snowflake
  • Starburst

    Starburst alimente l’architecture de données de base requise par les applications d’analytique, d’IA et de données. Elle utilise un environnement de lac de données hybride alimenté par Apache Iceberg pour fournir un accès, une collaboration et une gouvernance à grande échelle.

    Nous sommes ravis de voir Amazon S3 introduire la prise en charge intégrée d’Apache Iceberg avec les tableaux S3, faisant ainsi progresser l’écosystème Iceberg Open Data Lakehouse. Avec les compartiments de tableaux S3, nous sommes impatients de collaborer avec AWS pour aider nos clients communs à tirer parti de la puissance d’un Open Lakehouse, alimenté par Trino optimisé, un moteur MPP SQL open source de premier plan, à travers divers cas d’utilisation de l’analytique et de l’IA aux données d’Amazon S3.

    Matt Fuller, vice-président des produits, Starburst
  • StreamNative

    StreamNative est une plateforme de messagerie et de diffusion qui optimise l’IA et l’analytique grâce à une ingestion de données rentable et performante. Le moteur StreamNative Ursa permet aux entreprises de réduire le coût total de possession (TCO) de 90 % grâce à la compatibilité avec Kafka, à une architecture sans leader et à un stockage natif Lakehouse, rendant ainsi les données prêtes pour l’IA accessibles à grande échelle.

    Notre intégration avec les tableaux Amazon S3 rend les données en temps réel, prêtes pour l’IA, plus ouvertes et accessibles que jamais. L’architecture leader d’Ursa sur S3 réduit déjà les coûts de stockage, et l’intégration directe avec les tableaux S3 améliore encore les performances et l’efficacité. Dans un monde piloté par l’IA, la gouvernance des données est cruciale. Chez StreamNative, nous nous engageons à aider les entreprises à réduire leur coût total de possession de 90 % tout en leur permettant de créer facilement et à moindre coût des applications basées sur l’IA avec des données gouvernées en temps réel.

    Sijie Guo, PDG et cofondateur, StreamNative