O que é o mascaramento de dados?
O mascaramento de dados é o processo de ocultar dados modificando suas letras e números originais. Devido aos requisitos regulatórios e de privacidade, as organizações devem proteger os dados confidenciais que coletam sobre seus clientes e operações. O mascaramento de dados cria versões falsas dos dados de uma organização alterando informações confidenciais. Várias técnicas são usadas para criar mudanças realistas e estruturalmente semelhantes. Depois que os dados são mascarados, não é possível fazer engenharia reversa ou rastrear os valores dos dados originais sem acesso ao conjunto de dados original.
Quais são os casos de uso do mascaramento de dados?
As técnicas de mascaramento de dados dão suporte aos esforços de uma organização para atender às regulamentações de privacidade de dados, como o Regulamento Geral de Proteção de Dados (GDPR). Vários tipos de dados podem ser protegidos, como informações de identificação pessoal (PII), dados financeiros, informações de saúde protegidas (PHI) e propriedade intelectual.
A seguir, exploraremos alguns casos de uso do mascaramento de dados.
Desenvolvimento seguro
Os ambientes de desenvolvimento e teste de software exigem conjuntos de dados do mundo real para fins de teste. No entanto, o uso de dados reais levanta questões de segurança. O mascaramento de dados permite que desenvolvedores e testadores trabalhem com dados de teste realistas que se assemelham aos originais, mas sem expor informações confidenciais. Ele reduz os riscos de segurança nos ciclos de desenvolvimento e teste.
Análise e pesquisa
O mascaramento de dados permite que cientistas e analistas de dados trabalhem com grandes conjuntos de dados sem comprometer a privacidade individual. Os pesquisadores obtêm informações e tendências valiosas dos dados e garantem a proteção da privacidade. Por exemplo, os cientistas podem usar conjuntos de dados anônimos para estudar a eficácia de novos medicamentos, analisar os resultados do tratamento ou investigar possíveis efeitos colaterais.
Colaboração externa
As organizações geralmente precisam compartilhar dados com parceiros, fornecedores ou consultores externos. Ao mascarar determinados campos ou atributos, as organizações podem colaborar com partes externas e ainda proteger dados confidenciais.
Treinamento de funcionários
O mascaramento de dados pode ser usado para sessões de treinamento de funcionários ou demonstrações de software. Ao mascarar dados confidenciais, as organizações podem fornecer exemplos realistas sem expor dados genuínos de clientes ou negócios. Os funcionários podem aprender e praticar habilidades sem a necessidade de acessar dados para os quais não têm autorização.
Quais são os tipos de mascaramento de dados?
A seguir, apresentaremos alguns tipos comuns de mascaramento de dados.
Mascaramento de dados estático
O mascaramento de dados estático é o processo de aplicar um conjunto fixo de regras de mascaramento a dados confidenciais antes de serem armazenados ou compartilhados. É comumente usado para dados que não mudam com frequência ou permanecem estáticos ao longo do tempo. As regras são predefinidas e aplicadas de forma consistente aos dados, o que garante um mascaramento consistente em vários ambientes.
Embora os detalhes sejam complexos, veja uma visão geral do processo de mascaramento de dados estático:
- Identificação e compreensão dos dados confidenciais
- Projeção e desenvolvimento de regras de mascaramento
- Escolha de algoritmos de mascaramento de dados apropriados
- Aplicação de regras de mascaramento aos dados reais
Em seguida, os dados mascarados podem ser compartilhados, conforme necessário.
Mascaramento de dados dinâmico
O mascaramento dinâmico de dados aplica técnicas de mascaramento em tempo real. Ele altera dinamicamente os dados confidenciais existentes à medida que os usuários os acessam ou consultam. Ele é usado principalmente para implementar a segurança de dados baseada em funções em aplicações como suporte ao cliente ou tratamento de registros médicos.
O mascaramento de dados dinâmico funciona da seguinte maneira:
- Todos os usuários se comunicam com o banco de dados por meio de um servidor proxy
- Quando os usuários solicitam a leitura dos dados, o proxy do banco de dados aplica regras de mascaramento com base nas funções, privilégios ou permissões de acesso do usuário
- Os usuários autorizados recebem os dados originais, enquanto os usuários não autorizados recebem dados mascarados
Embora o processo não exija preparação prévia, ele pode afetar o desempenho.
Mascaramento determinístico de dados
O mascaramento determinístico de dados garante que o mesmo valor de entrada seja consistentemente mascarado para o mesmo valor de saída. Por exemplo, se um nome específico estiver mascarado como “John” em uma instância, ele sempre será mascarado como “John” em todo o sistema.
As técnicas de mascaramento determinístico geralmente envolvem a substituição ou tokenização de dados, em que um mapeamento consistente é mantido entre a coluna de dados original e os valores mascarados.
Mascaramento de dados em tempo real
O mascaramento de dados em tempo real mascara dados confidenciais na memória, portanto, não há necessidade de armazenar os dados alterados no banco de dados. É útil em pipelines de implantação contínua ou em cenários de integração complexos, nos quais os dados se movem com frequência entre ambientes de produção e não produção. No estágio necessário do pipeline, a aplicação mascara os dados e os passa para o próximo estágio do pipeline.
Ofuscação estatística
A ofuscação de dados estatísticos envolve a alteração dos valores de dados confidenciais de forma a preservar as propriedades estatísticas e as relações nos dados. Ela garante que os dados mascarados mantenham a distribuição geral, os padrões e as correlações dos dados originais para uma análise estatística precisa. As técnicas de ofuscação de dados estatísticos incluem a aplicação de funções matemáticas ou algoritmos de perturbação aos dados.
Quais são algumas técnicas comuns de mascaramento de dados?
Há vários algoritmos que você pode usar para proteção de dados. Veja alguns métodos comuns de mascaramento de dados.
Randomização
Com a randomização, você substitui os dados confidenciais por valores gerados aleatoriamente que não têm correlação com os dados originais. Por exemplo, você pode substituir nomes, endereços ou outras informações de identificação pessoal por valores fictícios ou selecionados aleatoriamente.
Substituição
O mascaramento de substituição envolve a substituição de dados confidenciais por dados semelhantes, mas fictícios. Por exemplo, é possível substituir nomes reais por nomes de uma lista predefinida. Também é possível usar algoritmos para gerar números de cartão de crédito semelhantes, mas falsos.
Embaralhando
Com o embaralhamento, você reordena os valores em um conjunto de dados para preservar as propriedades estatísticas e tornar os registros individuais não identificáveis. Essa técnica é comumente usada para preservar as relações nos dados.
Por exemplo, em uma tabela de dados, você pode embaralhar aleatoriamente os dados da coluna para que os valores das linhas mudem. Na prática, é possível preservar a associação entre um cliente e suas transações enquanto troca nomes e detalhes de contato.
Criptografia
Com o mascaramento de criptografia, você criptografa os dados confidenciais usando algoritmos criptográficos. Você transforma os dados em um formato ilegível e somente usuários autorizados com as chaves de decodificação podem acessar os dados originais. Essa técnica fornece um nível mais alto de segurança de dados, mas afeta o desempenho da consulta, pois a descriptografia é necessária para a análise de dados.
Hashing
O hashing é uma técnica de transformação que converte dados em uma sequência de caracteres de tamanho fixo. É comumente usado para mascarar senhas ou outras informações confidenciais em que o valor original não é necessário e você só precisa verificar os dados.
Tokenização
Com a tokenização, você substitui os dados de produção por um token ou valor de referência gerado aleatoriamente. Você armazena os dados originais em um local seguro separado e usa o token como substituto durante o processamento ou a análise. A tokenização ajuda a manter a integridade dos dados enquanto minimiza o risco de expor informações confidenciais.
Anulação
A anulação (ou exclusão) é uma solução de mascaramento de dados que substitui dados confidenciais por valores nulos ou espaços em branco. Isso remove efetivamente os dados do conjunto de dados. Essa abordagem é adequada quando você deseja manter o formato ou a estrutura dos dados, mas as informações específicas devem ser ocultadas.
Quais são os desafios do mascaramento de dados?
A seguir, discutiremos alguns desafios comuns no mascaramento de dados.
Preservação de atributos
É importante para pesquisas e análises que o mascaramento de dados preserve os atributos originais dos dados para determinados tipos de dados. Você quer garantir que suas ferramentas de mascaramento de dados preservem os tipos de dados originais ou preservem a frequência de qualquer categoria de dados associada.
Por exemplo, a alteração da representação demográfica dos dados do cliente ou das estatísticas da categoria do cartão ao ofuscar os detalhes do cartão de crédito por uma ferramenta poderá afetar a análise. A preservação de atributos pode se tornar um desafio em determinados processos de mascaramento de dados, como randomização ou tokenização.
Integridade semântica
Os valores falsos gerados devem obedecer às regras e restrições de negócios associadas aos diferentes tipos de dados. Por exemplo, os salários devem estar dentro de uma faixa específica e os números de identificação nacional devem seguir um formato predeterminado. É um desafio preservar a integridade semântica, mas isso garante que os dados mascarados permaneçam significativos e realistas.
Unicidade de dados
Nos casos em que os dados originais exigem unicidade, como números de identificação de funcionários, a técnica de mascaramento de dados deve fornecer valores únicos para substituir os dados originais. A ausência de unicidade nos principais campos pode criar possíveis conflitos ou inconsistências.
Integração com fluxos de trabalho existentes
Pode ser um desafio integrar o mascaramento de dados aos fluxos de trabalho existentes, especialmente durante os estágios iniciais de implementação. Os funcionários podem enfrentar situações inconvenientes ao se adaptarem aos novos processos e tecnologias. Para garantir uma integração suave e o mínimo de interrupções, sua organização deve se concentrar no planejamento cuidadoso, na colaboração das partes interessadas e na abordagem das preocupações dos usuários.
Como a AWS pode oferecer suporte aos requisitos de mascaramento de dados?
Existem diversas ofertas da Amazon Web Services (AWS) que têm funcionalidades integradas de mascaramento de dados. Veja alguns exemplos:
- O Amazon Transcribe realiza a conversão de fala em texto automaticamente e pode mascarar dados confidenciais, conforme solicitado.
- O Amazon Redshift usa SQL para analisar dados estruturados e semiestruturados em data warehouses, bancos de dados operacionais e data lakes. Ele é compatível com controle de acesso baseado em função, segurança em nível de linha, segurança em nível de coluna e técnicas de mascaramento dinâmico de dados.
- O Amazon Simple Notification Service (Amazon SNS) é um serviço de notificação. É possível usá-lo para definir políticas de proteção de dados que podem descobrir, mascarar e proteger dados confidenciais na transmissão.
Também temos guias de implementação existentes para requisitos complexos de mascaramento de dados. Por exemplo, a orientação AI-Powered Health Data Masking ajuda as organizações da área de saúde a identificar e mascarar dados de saúde em imagens ou textos. Essa orientação utiliza os seguintes serviços:
- O Amazon Comprehend Medical detecta dados de saúde em um corpo de texto.
- O Amazon Rekognition identifica texto em uma imagem.
- O Amazon API Gateway e o AWS Lambda fornecem uma interface de API para essa funcionalidade.
- O AWS Identity and Access Management (IAM) autoriza solicitações de API.
Você também pode escolher uma das diversas soluções de mascaramento de dados definidas previamente no AWS Marketplace.
Comece a usar o mascaramento de dados na AWS ao criar uma conta hoje mesmo.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.