Armazenamento de dados em formato tabular em grande escala no S3
O Amazon S3 Tables fornece o primeiro armazenamento de objetos na nuvem com suporte integrado ao Apache Iceberg e simplifica o armazenamento de dados em formato tabular em grande escala. A otimização contínua de tabelas digitaliza e reescreve automaticamente os dados das tabelas em segundo plano, alcançando um desempenho de consulta até 3 vezes mais rápido em comparação com tabelas do Iceberg não gerenciadas. Essas otimizações de desempenho continuarão melhorando com o tempo. Além disso, as tabelas do S3 incluem otimizações específicas para workloads do Iceberg que oferecem transações até 10 vezes maiores por segundo em comparação com as tabelas do Iceberg armazenadas em buckets do S3 de uso geral. Para obter mais detalhes sobre as melhorias no desempenho de consultas de tabelas do S3, confira o blog.
Com o suporte das Tabelas do S3 para o padrão Apache Iceberg, os dados tabulares podem ser consultados facilmente por mecanismos de consulta populares da AWS e de terceiros. Use o S3 Tables para armazenar dados em formato tabular, como transações diárias de compras, dados de sensores em transmissão ou impressões de anúncios, como uma tabela do Iceberg no S3. Além disso, use essa solução para otimizar a performance e os custos à medida que seus dados evoluem com a manutenção automática de tabelas. Leia o blog para saber mais.
Benefícios
Como ele funciona
O S3 Tables fornece um armazenamento do S3 desenvolvido com propósito específico para armazenar dados estruturados no formato Apache Parquet. Em um bucket de tabelas, é possível criar tabelas como recursos primários diretamente no S3. Essas tabelas podem ser protegidas com permissões a nível de tabela definidas em políticas baseadas em identidade ou em recursos e são acessíveis por aplicações ou ferramentas compatíveis o padrão do Apache Iceberg. Ao criar uma tabela no bucket de tabelas, os dados subjacentes no S3 são armazenados como dados no formato Parquet. Em seguida, o S3 mantém os metadados necessários para tornar esses dados no formato Parquet acessíveis para consulta pelas suas aplicações. Os buckets de tabelas incluem uma biblioteca de cliente que é usada por mecanismos de consulta para navegar e atualizar os metadados do Iceberg das tabelas no bucket de tabelas. Essa biblioteca, em conjunto com as APIs do S3 atualizadas para operações de tabelas, permite que vários clientes realizem a leitura e a gravação de dados com segurança em suas tabelas. Ao longo do tempo, o S3 realiza a otimização automática dos dados no formato Parquet subjacentes ao reescrever ou “compactar” os objetos. A compactação otimiza os dados armazenados no S3 para aprimorar a performance das consultas e para reduzir os custos. Leia o guia do usuário para saber mais informações

Clientes
-
Genesys
A Genesys é líder global na nuvem em orquestração de experiências com base em inteligência artificial. Por meio de funcionalidades avançadas de IA, gerenciamento de engajamento digital e da força de trabalho, a Genesys auxilia mais de 8 mil organizações em mais de cem países a proporcionar experiências personalizadas e empáticas a clientes e colaboradores, enquanto conquistam maior agilidade nos negócios e resultados aprimorados.
O Amazon S3 Tables representará uma adição transformadora à nossa arquitetura de dados, especialmente com seu suporte gerenciado ao Iceberg, que efetivamente cria uma camada de visão materializada para atender às diversas necessidades de análise de dados. Esta oferta tem o potencial de ajudar a Genesys a simplificar fluxos de trabalho de dados complexos ao eliminar as camadas adicionais de gerenciamento de tabelas, com o S3 assumindo automaticamente as tarefas principais de manutenção, como a compactação, o gerenciamento de snapshots e a limpeza de arquivos não referenciados. A capacidade de realizar a leitura e a gravação de tabelas do Iceberg diretamente do S3 nos ajudará a aumentar a performance e criar novas possibilidades para integrar dados de forma contínua em nosso ecossistema de analytics. Essa interoperabilidade, juntamente com os aprimoramentos de performance, posiciona o S3 Tables como um componente fundamental de nossa estratégia futura para fornecer insights de dados rápidos, flexíveis e confiáveis.
Glenn Nethercutt, diretor de tecnologia, Genesys -
Pendulum
O Pendulum é uma plataforma de inteligência de marca que tem a cobertura mais abrangente do mundo em conteúdo de vídeo, áudio e texto para identificar riscos e oportunidades de forma proativa, permitindo uma melhor tomada de decisões e analytics de monitoramento em toda a empresa.
Na Pendulum Intelligence, analisamos dados de centenas de milhões de canais e fontes sociais. As Tabelas do Amazon S3 transformaram a forma como gerenciamos nosso data lake, que processa milhares de horas de conteúdo de vídeo e áudio analisado enquanto extrai contexto de imagens e outras mídias quase em tempo real, usando nossas ferramentas proprietárias de machine learning. Ao eliminar a carga do gerenciamento de tabelas, incluindo compactação, snapshots e limpeza de arquivos, nossa equipe pode se concentrar no que é mais importante: obter insights acionáveis de grandes conjuntos de dados. A integração perfeita com nossa pilha de analytics (Amazon Athena, AWS Glue e Amazon EMR) melhorou significativamente nossa capacidade de processar dados complexos em grande escala.
Abdurrahman Elbuni, arquiteto de big data em nuvem, Pendulum -
SnapLogic
A SnapLogic é uma pioneira em integração liderada por IA. A plataforma para integração generativa da SnapLogic acelera a transformação digital em toda a empresa, permitindo o projeto, a implantação e o gerenciamento de agentes de IA e integrações que automatizam tarefas, tomam decisões em tempo real e se integram aos fluxos de trabalho existentes com facilidade.
O Amazon S3 Tables, com suporte incorporado ao Apache Iceberg e integração com os serviços de analytics da AWS, ajudam as empresas a otimizar os custos de data analytics, ao mesmo tempo em que transformam a maneira como elas usam os dados empresariais para iniciativas de analytics, conformidade e projetos de IA. Ao automatizar tarefas complexas de gerenciamento de dados e fornecer trilhas de auditoria completas das alterações de dados, as equipes podem analisar instantaneamente dados históricos, manter a conformidade regulatória e acelerar os insights de negócios, ao mesmo tempo em que reduzem significativamente os custos tecnológicos.
Dominic Wellington, arquiteto empresarial, SnapLogic -
Zus Health
A Zus é uma plataforma de dados de saúde compartilhados projetada para acelerar a interoperabilidade de dados de saúde ao fornecer dados de pacientes de fácil acesso por meio de API, componentes incorporados e integrações diretas com sistemas de EHR.
Como uma empresa de saúde que lida com volumes massivos de dados de pacientes que são frequentemente atualizados, decidimos investir no Apache Iceberg, pois ele resolve vários problemas do Apache Hive relacionados ao particionamento e à automação, com o benefício adicional de uma interoperabilidade mais ampla. Um dos principais desafios que enfrentamos com o Iceberg tem sido a compreensão e o gerenciamento da otimização das tabelas. Esse é o motivo pelo qual estamos entusiasmados com o S3 Tables e com as funcionalidades de otimização gerenciada. A capacidade de transferir a sobrecarga do desenvolvedor na manutenção de tabelas permitirá que nos concentremos mais em fornecer dados de alta qualidade e insights valiosos para nossos clientes.
Sonya Huang, engenheira de software de consultoria, Zus Health
Parceiros e integrações
-
Daft
O Daft é um mecanismo unificado para engenharia de dados, analytics, ML e IA, expondo as interfaces SQL e Python DataFrame como cidadãos de primeira classe, e é escrito em Rust. O Daft oferece uma experiência interativa local rápida e inteligente, além de escalar perfeitamente para workloads distribuídas em escala de petabytes.
As Tabelas do Amazon S3 são o complemento perfeito para o suporte do Daft para o Apache Iceberg. Ao aproveitar suas integrações com o AWS Lake Formation e o AWS Glue, conseguimos estender facilmente nossos recursos atuais de leitura e gravação do Iceberg para as Tabelas do S3 e, ao mesmo tempo, aproveitar sua performance otimizada. Estamos ansiosos e entusiasmados com a evolução desse novo serviço e em fornecer o melhor suporte das Tabelas do S3 para o ecossistema de ML e IA e engenharia de dados Python.
Sammy Sidhu, diretor executivo e cofundador, Daft -
Dremio
O Dremio é a plataforma inteligente de lakehouse que acelera a IA e o analytics ao oferecer um mecanismo SQL líder do mercado, um catálogo de dados aberto e interoperável e uma plataforma segura, escalável e simples de usar. Nossa liderança nas comunidades do Apache Iceberg, Apache Polaris (em incubação) e Apache Arrow capacita as organizações a criar arquiteturas de lakehouse totalmente abertas e de alta performance, mantendo a flexibilidade e o controle, eliminando a dependência de fornecedores.
A Dremio tem o prazer de oferecer suporte à disponibilidade geral das Tabelas do Amazon S3. Ao oferecer suporte à especificação do Apache Iceberg REST Catalog (IRC), as Tabelas do S3 garantem uma interoperabilidade perfeita com o Dremio, permitindo que os usuários se beneficiem de um mecanismo SQL de alta performance capaz de consultar tabelas do Apache Iceberg gerenciadas em buckets otimizados das Tabelas do S3. Essa colaboração reforça a importância dos padrões abertos no ecossistema de lakehouse, eliminando a complexidade da integração e acelerando a adoção pelos clientes. Com as Tabelas do Amazon S3 e o suporte de IRC, as organizações ganham a flexibilidade e a alternativa necessárias para criar uma arquitetura de lakehouse unificada na era da IA.
James Rowland-Jones, vice-presidente de produtos, Dremio -
DuckDB Labs
A DuckDB Labs é a empresa fundada pelos criadores do DuckDB, uma ferramenta universal de manipulação de dados muito utilizada. A empresa emprega os principais colaboradores do sistema DuckDB. O DuckDB é um software gratuito e de código aberto sob a licença MIT, e é regido pela Fundação DuckDB independente sem fins lucrativos. O projeto DuckDB disponibiliza o processamento analítico rápido para um público amplo por meio de sua facilidade de uso e portabilidade.
As Tabelas do Amazon S3 se alinham perfeitamente com a visão da DuckDB de democratizar o data analytics usando formatos de arquivo aberto. A colaboração entre a AWS e a DuckDB Labs nos permite ampliar ainda mais o suporte do Iceberg no DuckDB e desenvolver uma integração perfeita com as Tabelas do S3. Acreditamos que a mentalidade de tudo incluído e compartilhado do DuckDB e das Tabelas do S3 se funde em uma pilha robusta de analytics que pode lidar com uma ampla variedade de workloads e, ao mesmo tempo, manter uma barreira de entrada incrivelmente baixa.
Hannes Mühleisen, diretor executivo, DuckDB Labs -
HighByte
A HighByte é uma empresa de software industrial que aborda os desafios de arquitetura e integração de dados enfrentados pelos fabricantes globais à medida que se transformam digitalmente. O HighByte Intelligence Hub, o reconhecido software industrial DataOps da empresa, fornece dados modelados e prontos para uso aos serviços da Nuvem AWS usando uma interface sem código para acelerar o tempo de integração e o analytics.
As Tabelas do Amazon S3 são um novo recurso robusto que otimiza o gerenciamento, a performance e o armazenamento de dados tabulares para workloads de analytics. A integração direta do HighByte Intelligence Hub com as Tabelas do Amazon S3 facilita para os fabricantes globais a criação de um data lake aberto e transacional para seus dados industriais. As Tabelas do S3 possibilitam a consulta instantânea de dados brutos do Parquet, permitindo que os clientes enviem informações contextualizadas da borda para a nuvem para uso imediato, sem processamento ou transformações adicionais. Isso tem um grande impacto na performance e na otimização de custos para nossos clientes mútuos.
Aron Semle, diretor de tecnologia, HighByte -
PuppyGraph
O PuppyGraph é o primeiro mecanismo de consulta de grafos de ETL zero em tempo real, permitindo que as equipes de dados consultem o lakehouse existente como um grafo em minutos, sem a necessidade de uma migração ou manutenção dispendiosa. Ele escala para conjuntos de dados do tamanho de petabytes e executa consultas complexas de vários saltos em segundos, potencializando casos de uso, desde a detecção de fraudes até a segurança cibernética e insights orientados por IA.
O Amazon S3 sempre foi a base da infraestrutura moderna de dados, e o lançamento das Tabelas do S3 é um marco importante, tornando possível que o Apache Iceberg se torne o padrão universal para dados e IA. Essa inovação permite que as organizações aproveitem formatos de tabela aberta de alta performance no S3, permitindo o analytics de vários mecanismos sem duplicação de dados. Para os clientes do PuppyGraph, isso significa que agora eles podem executar consultas de grafos em tempo real diretamente em seus dados do S3, mantendo insights novos e escaláveis sem a sobrecarga do ETL complexo. Estamos entusiasmados em fazer parte dessa evolução, tornando o analytics de grafos tão perfeito quanto os próprios dados.
Weimo Liu, cofundador e diretor executivo, PuppyGraph -
Snowflake
O Snowflake torna a IA empresarial fácil, conectada e confiável. Milhares de empresas em todo o mundo, incluindo centenas das mundialmente maiores, usam o AI Data Cloud do Snowflake para compartilhar dados, criar aplicações e potencializar seus negócios com a IA.
Estamos empolgados em trazer a magia do Snowflake para as Tabelas do Amazon S3. Essa colaboração permite que os clientes do Snowflake leiam e processem facilmente os dados armazenados nas Tabelas do S3 usando suas configurações existentes do Snowflake, sem a necessidade de migrações ou duplicações complexas de dados. Ao combinar os recursos de excelência de analytics de performance do Snowflake com o armazenamento eficiente das Tabelas do Amazon S3 das tabelas do Apache Iceberg, as organizações podem facilmente consultar e analisar dados tabulares armazenados no Amazon S3.
Rithesh Makkena, diretor global de engenharia de soluções de parceiros, Snowflake -
Starburst
O Starburst potencializa a arquitetura básica de dados necessária para aplicações de analytics, IA e dados. Ele usa um ambiente híbrido de data lakehouse desenvolvido pelo Apache Iceberg para oferecer acesso, colaboração e governança em grande escala.
Estamos entusiasmados em ver o Amazon S3 introduzir suporte integrado para o Apache Iceberg com Tabelas do S3, promovendo o ecossistema do Iceberg Open Data Lakehouse. Com os buckets das Tabelas do S3, esperamos colaborar com a AWS para ajudar nossos clientes em comum a levar o poder de um Open Lakehouse, baseado no Trino otimizado, um mecanismo MPP SQL líder de código aberto, para diversos casos de uso de analytics e IA para dados no Amazon S3.
Matt Fuller, vice-presidente de produtos, Starburst -
StreamNative
O StreamNative é uma plataforma de mensagens e streaming que alimenta a IA e o analytics com uma ingestão de dados econômica e de alta performance. O mecanismo StreamNative da Ursa permite que as empresas reduzam o custo total de propriedade (TCO) em 90% com a compatibilidade com o Kafka, uma arquitetura sem líder e armazenamento nativo de lakehouse, tornando os dados prontos para IA acessíveis em grande escala.
Nossa integração com as Tabelas do Amazon S3 torna os dados em tempo real, prontos para IA, mais abertos e acessíveis do que nunca. A arquitetura sem líder da Ursa no S3 já reduz os custos de armazenamento, e a integração direta com as Tabelas do S3 melhora ainda mais a performance e a eficiência. Em um mundo impulsionado pela IA, a governança de dados é crucial. Na StreamNative, estamos comprometidos em ajudar as empresas a reduzir o TCO em 90%, ao mesmo tempo em que tornamos fácil e acessível a criação de aplicações baseadas em IA com dados governados em tempo real.
Sijie Guo, diretor executivo e cofundador, StreamNative