O que é arquitetura de dados?
A arquitetura de dados é a framework abrangente que descreve e governa a coleta, o gerenciamento e o uso de dados de uma organização. Atualmente, as organizações têm grandes volumes de dados provenientes de várias fontes de dados e equipes diferentes que desejam acessar esses dados para analytics, machine learning, inteligência artificial e outras aplicações. A arquitetura de dados moderna apresenta um sistema coeso que torna os dados acessíveis e utilizáveis, garantindo sua segurança e qualidade. Ela define políticas, modelos de dados, processos e tecnologias que permitem que as organizações movam facilmente os dados entre departamentos e garantam que eles estejam disponíveis sempre que necessário, incluindo acesso em tempo real, ao mesmo tempo em que oferece suporte total à conformidade regulatória.
Quais são os componentes de qualquer arquitetura de dados?
Os principais componentes da arquitetura de dados são apresentados abaixo.
Fontes de dados
Fontes de dados podem ser aplicações voltadas para o cliente, sistemas de monitoramento e telemetria, dispositivos de IoT e sensores inteligentes, aplicações de suporte a operações comerciais, lojas de conhecimento internas, arquivos de dados, armazenamentos de dados de terceiros e muito mais. Tanto os dados estruturados quanto os não estruturados entram na organização em velocidades, volumes e frequências variáveis.
Bancos de dados
Os sistemas de banco de dados criados especificamente oferecem suporte a aplicações modernas e seus diferentes recursos. Eles podem ser relacionais ou não relacionais, alguns armazenando dados como tabelas estruturadas e outros armazenando tipos de dados não estruturados como documentos ou pares de chave-valor. Os bancos de dados normalmente armazenam dados específicos do domínio relacionados a um caso de uso restrito. No entanto, os dados podem ser usados além do sistema atual. Por exemplo, os dados de uma aplicação voltada para o cliente podem ser usados para analytics ou planejamento de marketing e precisam ser retirados do banco de dados para processamento. Da mesma forma, os dados processados de outros lugares precisam ser recarregados no banco de dados de uma aplicação de analytics ou machine learning (ML).
Data lakes
Um data lake é um repositório centralizado para armazenamento de dados brutos em grande escala. A arquitetura de dados descreve como os dados são movidos de diferentes bancos de dados para o data lake e retornam para diferentes bancos de dados conforme necessário para uso. O data lake armazena dados em um formato nativo ou aberto, permitindo a formatação e a limpeza antes do uso. Ele suporta a integração de dados e decompõe os silos de dados dentro de uma organização.
Análises de dados
O componente de data analytics inclui data warehouses tradicionais, relatórios em lote e tecnologia de streaming de dados para alertas e relatórios em tempo real. Eles podem ser usados para consultas únicas e casos de uso de analytics avançadas. As analytics não são limitadas por silos de dados porque a arquitetura de dados abre o acesso e permite mais liberdade para que todos usem os ativos de dados da organização.
Inteligência artificial
O ML e a IA são essenciais para uma estratégia de dados moderna para ajudar as organizações a prever cenários futuros e incorporar inteligência às aplicações. Os cientistas de dados usam dados de lagos para experimentar, identificar casos de uso de inteligência e treinar novos modelos. Mesmo após o treinamento, os modelos de IA exigem acesso contínuo a novos dados para gerar resultados relevantes e úteis. As arquiteturas de dados modernas incluem toda a tecnologia e a infraestrutura que oferecem suporte para treinamento e inferência de modelos de IA.
Governança de dados
A governança de dados determina funções, responsabilidades e padrões para o uso de dados. Ele descreve quem pode realizar quais ações, com base em quais dados, usando quais métodos e em quais situações. Ele inclui gerenciamento de qualidade e segurança de dados. Os arquitetos de dados definem processos para auditar e rastrear o uso de dados para garantir a conformidade regulatória contínua.
O gerenciamento de metadados é parte integrante da governança de dados. A arquitetura de dados inclui ferramentas e políticas para armazenar e compartilhar metadados. Ele descreve mecanismos para fornecer um armazenamento central de metadados, onde sistemas diferentes podem armazenar e descobrir metadados e usá-los para consultar e processar ainda mais ativos de dados.
Como a arquitetura de dados é implementada?
É uma prática recomendada implementar sua arquitetura de dados moderna em camadas. As camadas agrupam processos e tecnologias com base em objetivos distintos. Os detalhes da implementação são flexíveis, mas as camadas orientam as opções de tecnologia e como elas devem ser integradas.
Camada de preparação
A camada de preparação é o ponto de entrada para os dados dentro da arquitetura. Ele lida com a ingestão de dados brutos de várias fontes, incluindo formatos estruturados, semiestruturados e não estruturados. Você quer que essa camada seja a mais flexível possível.
Se o esquema (formatos e tipos de dados) for aplicado rigidamente nessa camada, os casos de uso posteriores serão limitados. Por exemplo, impor todos os valores de data como formato de mês e ano limita os casos de uso futuros que exigem a formatação dd/mm/aaaa. Ao mesmo tempo, você precisa de consistência. Por exemplo, se os números de telefone forem armazenados como strings e usados como tal, mas alguma outra fonte de dados começar a gerar os mesmos dados numéricos, isso fará com que os pipelines de dados sejam interrompidos.
Equilibrar flexibilidade com consistência exige que você divida essa camada em duas subcamadas.
Camada bruta
A camada bruta armazena dados inalterados exatamente como eles chegam, preservando o formato e a estrutura originais sem transformações. É um repositório corporativo para exploração, auditoria e reprodutibilidade de dados. As equipes podem revisitar e analisar os dados em seu estado original quando necessário, garantindo transparência e rastreabilidade.
Camada padronizada
A camada padronizada prepara dados brutos para consumo aplicando validação e transformações de acordo com padrões predefinidos. Por exemplo, nessa camada, todos os números de telefone seriam convertidos em cadeias de caracteres, todos os valores de hora em formatos específicos, etc. Assim, ela se torna a interface para que todos os usuários da organização acessem dados estruturados e de qualidade garantida.
A camada padronizada na arquitetura de dados é crucial para permitir business intelligence (BI) de autoatendimento, analytics de rotina e fluxos de trabalho de ML. Ele impõe os padrões do esquema e minimiza as interrupções causadas pelas alterações do esquema.
Camada conforme
A integração de dados de diferentes fontes é concluída na camada conforme. Ele cria um modelo de dados corporativo unificado em todos os domínios. Por exemplo, os dados do cliente podem ter detalhes diferentes em departamentos diferentes: os detalhes do pedido são capturados pelas vendas, o histórico financeiro é capturado pelas contas e os interesses e as atividades online são capturados pelo marketing. A camada conforme cria uma compreensão compartilhada desses dados em toda a organização. Os principais benefícios incluem:
- Definição consistente e unificada das principais entidades em toda a organização.
- Conformidade com os regulamentos de segurança e privacidade dos dados.
- Flexibilidade que equilibra a uniformidade de toda a empresa com a personalização específica do domínio por meio de padrões centralizados e distribuídos.
Ela não é usada diretamente para business intelligence operacional, mas oferece suporte à análise exploratória de dados, BI de autoatendimento e enriquecimento de dados específicos do domínio.
Camada enriquecida
Essa camada transforma os dados da camada anterior em conjuntos de dados chamados produtos de dados personalizados para casos de uso específicos. Os produtos de dados podem variar de painéis operacionais usados para a tomada de decisões diárias a perfis detalhados de clientes enriquecidos com recomendações personalizadas ou insights sobre a próxima melhor ação. Eles são hospedados em vários bancos de dados ou aplicações escolhidos com base no caso de uso específico.
As organizações catalogam os produtos de dados em sistemas centralizados de gerenciamento de dados para serem descobertos e acessados por outras equipes. Isso reduz a redundância e garante que dados enriquecidos e de alta qualidade sejam facilmente acessíveis.
Quais são os tipos de arquiteturas de dados?
Há duas abordagens diferentes para a camada conformada que criam diferentes tipos de arquitetura de dados.
Arquitetura de dados centralizada
Em arquiteturas de dados centralizadas, a camada conformada se concentra na criação e no gerenciamento de entidades comuns, como clientes ou produtos, que são usadas universalmente em toda a empresa. As entidades são definidas com um conjunto limitado de atributos genéricos para facilitar o gerenciamento de dados e a ampla aplicabilidade. Por exemplo, uma entidade de cliente pode incluir atributos essenciais, como nome, idade, profissão e endereço.
Essas arquiteturas de dados oferecem suporte à governança centralizada de dados, especialmente para informações confidenciais, como informações de identificação pessoal (PII) ou informações de cartão de pagamento (PCI). O gerenciamento centralizado de metadados garante que os dados sejam catalogados e governados de maneira eficaz, com rastreamento de linhagem e controles de ciclo de vida para transparência e segurança.
No entanto, esse modelo evita a inclusão de todos os atributos possíveis, pois o gerenciamento centralizado de requisitos complexos de dados retarda a tomada de decisões e a inovação. Em vez disso, as propriedades específicas do domínio, como as impressões da campanha do cliente (exigidas apenas pelo marketing), são derivadas na camada enriquecida pelas respectivas unidades de negócios.
As tecnologias de data fabric são úteis na implementação de arquiteturas de dados centralizadas.
Arquitetura de dados distribuída
Cada domínio cria e gerencia sua própria camada conforme em arquiteturas de dados distribuídas. Por exemplo, o marketing se concentra em atributos como segmentos de clientes, impressões de campanhas e conversões, enquanto a contabilidade prioriza propriedades como pedidos, receita e lucro líquido.
As arquiteturas de dados distribuídas permitem flexibilidade na definição de entidades e suas propriedades, mas resultam em vários conjuntos de dados para entidades comuns. A visibilidade e a governança desses conjuntos de dados distribuídos são obtidas por meio de um catálogo central de metadados. As partes interessadas podem encontrar e usar o conjunto de dados apropriado enquanto supervisionam os processos de intercâmbio de dados.
As tecnologias de data mesh são úteis na implementação de arquiteturas de dados distribuídas.
O que é uma framework de arquitetura de dados?
Uma framework de arquitetura de dados é uma abordagem estruturada para projetar a arquitetura de dados. Ela fornece um conjunto de princípios, padrões, modelos e ferramentas que garantem processos eficientes de gerenciamento de dados alinhados aos objetivos de negócios da organização. Você pode pensar nisso como um esquema padrão que um arquiteto de dados utiliza para criar arquiteturas de dados abrangentes e de alta qualidade.
Alguns exemplos de frameworks de arquitetura de dados incluem
A framework DAMA-DMBOK
A framework Data Management Body of Knowledge (DAMA-DMBOK) descreve as melhores práticas, princípios e processos para um gerenciamento eficaz de dados em todo o ciclo de vida. Ela oferece suporte ao estabelecimento de práticas consistentes de gerenciamento de dados e, ao mesmo tempo, garante o alinhamento com as metas de negócios. Ao tratar os ativos de dados como um recurso estratégico, o DAMA-DMBOK fornece orientação acionável para melhorar a tomada de decisões e a eficiência operacional.
A framework Zachman
A framework Zachman é uma framework de arquitetura empresarial que usa um formato de matriz para definir os relacionamentos entre diferentes perspectivas (como proprietário dos negócios, designer e construtor) e seis interrogações principais (o quê, como, onde, quem, quando e por quê). As organizações podem visualizar como os dados se encaixam em suas operações gerais, garantindo que os processos relacionados aos dados estejam alinhados aos objetivos de negócios e aos requisitos do sistema. A framework Zachman é amplamente reconhecida por sua capacidade de esclarecer as dependências de dados e sistemas em toda a empresa.
TOGAF
A TOGAF (The Open Group Architecture Framework) trata a arquitetura de dados como um componente crítico de um sistema mais amplo, enfatizando a criação de modelos de dados, fluxos de dados e estruturas de governança que oferecem suporte às necessidades organizacionais. Ela estabelece processos de dados padronizados, garantindo a interoperabilidade do sistema e o gerenciamento eficiente dos dados. Ela é particularmente benéfica para grandes empresas que buscam alinhar suas estratégias de TI e de negócios por meio de uma abordagem unificada.
Como a arquitetura de dados se compara a outros termos relacionados?
Terminologias de dados diferentes parecem semelhantes, mas têm significados completamente diferentes. A seguir, apresentamos algumas explicações.
Arquitetura de dados versus arquitetura de informações
A arquitetura de informações é a organização e a apresentação de informações aos usuários finais. O termo se aplica a interfaces de usuário, sites ou sistemas de conteúdo e se refere à acessibilidade das informações do usuário final. Os princípios e as ferramentas da arquitetura de informações se concentram na navegação, categorização e viabilidade de pesquisas: por exemplo, em um repositório de conhecimento online ou banco de dados de documentos.
Em contraste, a arquitetura de dados se concentra em projetar e gerenciar todos os dados organizacionais. Ela lida com toda a infraestrutura de dados técnicos de backend, enquanto a arquitetura de informações se concentra apenas em como os usuários finais interagem e interpretam as informações.
Arquitetura de dados versus engenharia de dados
A engenharia de dados é a implementação prática da arquitetura de dados. Os arquitetos de dados fornecem um plano de alto nível para gerenciar os ativos de dados de uma organização. Eles projetam sistemas de dados escaláveis alinhados aos objetivos comerciais e a políticas de segurança. Os engenheiros de dados implementam o plano: criando, mantendo e otimizando pipelines de dados. Eles garantem que os dados sejam ingeridos, limpos, transformados e entregues para análise de acordo com as regras da arquitetura de dados.
Arquitetura de dados x modelagem de dados
A modelagem de dados é um processo dentro da arquitetura de dados que cria uma representação visual de qualquer coleta de dados. Ela inclui a criação de modelos de dados conceituais, lógicos e físicos que descrevem os dados na coleção. Um modelo de dados lógico representa esquematicamente restrições de dados, nomes de entidades e relacionamentos para implementação de maneira independente de plataforma. Um modelo de dados físicos refina ainda mais o modelo lógico para implementação em uma tecnologia de dados específica.
A arquitetura de dados tem um escopo muito mais amplo além da modelagem de dados. Além dos atributos e relacionamentos dos dados, ela também define uma estratégia mais ampla para o gerenciamento de dados em toda a organização. Isso inclui infraestrutura, políticas e tecnologias para integração de dados que se alinham a objetivos organizacionais.
Como a AWS pode atender aos seus requisitos de arquitetura de dados?
A AWS fornece um conjunto abrangente de serviços de analytics para cada camada da sua arquitetura de dados, desde armazenamento e gerenciamento até governança de dados e IA. A AWS oferece serviços personalizados com a melhor relação preço/desempenho, escalabilidade e menor custo. Por exemplo,
- Os bancos de dados na AWS incluem mais de 15 serviços de banco de dados com propósito específico para oferecer suporte a diversos modelos de dados relacionais e não relacionais.
- Os data lakes na AWS incluem serviços que fornecem armazenamento ilimitado de dados brutos e criam data lakes seguros em dias, em vez de meses.
- A integração de dados com a AWS inclui serviços que reúnem dados de várias fontes para que você possa transformar, operacionalizar e gerenciar dados em toda a sua organização.
O AWS Well-Architected ajuda arquitetos de dados na nuvem a criar infraestruturas seguras, resilientes, eficientes e de alta performance. O AWS Architecture Center inclui diretrizes baseadas em casos de uso para implementar várias arquiteturas de dados modernas na sua organização.
Comece a usar a arquitetura de dados na AWS criando uma conta gratuita hoje mesmo.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.