A verdadeira promessa de dados sintéticos

Views: 395
0 0
Read Time:7 Minute, 7 Second

Os pesquisadores do MIT lançam o Synthetic Data Vault, um conjunto de ferramentas de código aberto destinadas a expandir o acesso a dados sem comprometer a privacidade

A cada ano, o mundo gera mais dados do que no ano anterior. Somente em 2020, estima-se que 59 zettabytes de dados serão “criados, capturados, copiados e consumidos”, de acordo com a International Data Corporation — o suficiente para preencher cerca de um trilhão de discos rígidos de 64 gigabytes.

Mas só porque os dados estão proliferando não significa que todos possam realmente usá-los. Empresas e instituições, legitimamente preocupadas com a privacidade de seus usuários, muitas vezes restringem o acesso a conjuntos de dados — às vezes dentro de suas próprias equipes. E agora que a pandemia Covid-19 fechou laboratórios e escritórios, impedindo que as pessoas visitem lojas de dados centralizadas, compartilhar informações com segurança é ainda mais difícil.

Sem acesso aos dados, é difícil fazer ferramentas que realmente funcionem. Digite dados sintéticos: desenvolvedores e engenheiros de informações artificiais podem usar como substituto para dados reais.

Dados sintéticos são um pouco como refrigerante diet. Para ser eficaz, tem que se assemelhar à “coisa real” de certas maneiras. Refrigerante diet deve parecer, sabor e fizz como refrigerante normal. Da mesma forma, um conjunto de dados sintético deve ter as mesmas propriedades matemáticas e estatísticas que o conjunto de dados do mundo real que está em posição. “Parece que sim, e tem formatação como essa”, diz Kalyan Veeramachaneni, principal pesquisador do Laboratório de Dados para IA (DAI) e um dos principais cientistas de pesquisa do Laboratório de Sistemas de Informação e Decisão do MIT. Se ele é executado através de um modelo, ou usado para construir ou testar um aplicativo, ele funciona como os dados do mundo real fariam.

Mas — assim como o refrigerante diet deve ter menos calorias do que a variedade regular – um conjunto de dados sintético também deve diferir de um real em aspectos cruciais. Se for baseado em um conjunto de dados real, por exemplo, ele não deve conter ou mesmo sugerir qualquer uma das informações desse conjunto de dados.

Enfiar esta agulha é complicado. Após anos de trabalho, Veeramachaneni e seus colaboradores revelaram recentemente um conjunto de ferramentas de geração de dados de código aberto — uma loja única onde os usuários podem obter o máximo de dados que precisam para seus projetos, em formatos de tabelas a séries temporâneas. Eles o chamam de Cofre de Dados Sintéticos.

Maximizar o acesso enquanto mantém a privacidade

Veeramachaneni e sua equipe tentaram criar dados sintéticos pela primeira vez em 2013. Eles tinham sido encarregados de analisar uma grande quantidade de informações do programa de aprendizagem online edX, e queriam trazer alguns alunos do MIT para ajudar. Os dados eram sensíveis e não podiam ser compartilhados com essas novas contratações, então a equipe decidiu criar dados artificiais com os quais os alunos poderiam trabalhar — imaginando que “uma vez que eles escrevessem o software de processamento, poderíamos usá-los nos dados reais”, diz Veeramachaneni.

Este é um cenário comum. Imagine que você é um desenvolvedor de software contratado por um hospital. Você foi solicitado a construir um painel que permite que os pacientes acessem seus resultados de exames, prescrições e outras informações de saúde. Mas você não pode ver nenhum dado real do paciente, porque é privado.

A maioria dos desenvolvedores nesta situação fará “uma versão muito simplista” dos dados de que precisam e fará o seu melhor, diz Carles Sala, pesquisador do laboratório DAI. Mas quando o painel entra em operação, há uma boa chance de que “tudo caia”, diz ele, “porque há alguns casos de borda que eles não estavam levando em conta”.

Dados sintéticos de alta qualidade — tão complexos quanto o que se pretende substituir — ajudariam a resolver esse problema. Empresas e instituições poderiam compartilhá-lo livremente, permitindo que as equipes trabalhassem de forma mais colaborativa e eficiente. Os desenvolvedores poderiam até mesmo carregá-lo em seus laptops, sabendo que eles não estavam colocando nenhuma informação sensível em risco.

Aperfeiçoando a fórmula — e manipulando restrições

Em 2013, a equipe de Veeramachaneni deu-se duas semanas para criar um pool de dados que eles poderiam usar para esse projeto edX. A linha do tempo “parecia realmente razoável”, diz Veeramachaneni. “Mas nós falhamos completamente.” Eles logo perceberam que se construíssem uma série de geradores de dados sintéticos, poderiam tornar o processo mais rápido para todos os outros.

Em 2016, a equipe concluiu um algoritmo que captura com precisão correlações entre os diferentes campos em um conjunto de dados real — pense na idade, pressão arterial e frequência cardíaca de um paciente — e cria um conjunto de dados sintético que preserva essas relações, sem qualquer informação de identificação. Quando os cientistas de dados foram convidados a resolver problemas usando esses dados sintéticos, suas soluções foram tão eficazes quanto aquelas feitas com dados reais em 70% das vezes. A equipe apresentou esta pesquisa na Conferência Internacional iEEE de 2016 sobre Ciência de Dados e Análise Avançada.

Para o próximo go-around, a equipe chegou profundamente na caixa de ferramentas de aprendizado de máquina. Em 2019, o doutorando Lei Xu apresentou seu novo algoritmo, CTGAN,na 33ª Conferência sobre Sistemas de Processamento de Informações Neurais em Vancouver. CTGAN (para “redes contraditórias multiplicatórias tabulares condicionais) usa GANs para construir e aperfeiçoar tabelas de dados sintéticas. Os GANs são pares de redes neurais que “jogam uns contra os outros”, diz Xu. A primeira rede, chamada geradora, cria algo — neste caso, uma linha de dados sintéticos — e a segunda, chamada de discriminação, tenta dizer se é real ou não.

“Eventualmente, o gerador pode gerar [dados] perfeitos, e o discriminador não pode dizer a diferença”, diz Xu. Os GANs são mais frequentemente usados na geração de imagens artificiais, mas funcionam bem para dados sintéticos, também: a CTGAN superou técnicas clássicas de criação de dados sintéticos em 85% dos casos testados no estudo de Xu.

A semelhança estatística é crucial. Mas dependendo do que eles representam, os conjuntos de dados também vêm com seu próprio contexto vital e restrições, que devem ser preservados em dados sintéticos. O pesquisador de laboratório da DAI Sala dá o exemplo de um livro de hotel: um hóspede sempre faz check-out depois de fazer check-in. As datas em um conjunto de dados de reserva de hotel sintético também devem seguir essa regra: “Eles precisam estar na ordem certa”, diz ele.

Grandes conjuntos de dados podem conter uma série de relacionamentos diferentes como este, cada um estritamente definido. “Os modelos não podem aprender as restrições, porque são muito dependentes do contexto”, diz Veeramachaneni. Assim, a equipe finalizou recentemente uma interface que permite que as pessoas digam a um gerador de dados sintético onde esses limites estão. “Os dados são gerados dentro dessas restrições”, diz Veeramachaneni.

Tais dados precisos poderiam ajudar empresas e organizações em muitos setores diferentes. Um exemplo é o banco, onde o aumento da digitalização, juntamente com novas regras de privacidade de dados, “desencadeou um crescente interesse em formas de gerar dados sintéticos”, diz Wim Blommaert, líder da equipe de serviços financeiros do ING. Soluções atuais, como a máscara de dados, muitas vezes destroem informações valiosas que os bancos poderiam usar para tomar decisões, disse ele. Uma ferramenta como a SDV tem o potencial de desviar os aspectos sensíveis dos dados, preservando essas importantes restrições e relacionamentos.

Um cofre para governar todos eles

O Cofre de Dados Sintéticos combina tudo o que o grupo construiu até agora em “todo um ecossistema”, diz Veeramachaneni. A ideia é que as partes interessadas – de estudantes a desenvolvedores profissionais de software – possam vir ao cofre e obter o que precisam, seja uma mesa grande, uma pequena quantidade de dados de séries temporais ou uma mistura de muitos tipos de dados diferentes.

O cofre é de código aberto e expansível. “Há muitas áreas diferentes onde estamos percebendo que os dados sintéticos também podem ser usados”, diz Sala. Por exemplo, se um determinado grupo é sub-representado em um conjunto de dados de amostra, os dados sintéticos podem ser usados para preencher essas lacunas — um esforço sensível que requer muita finesse. Ou as empresas também podem querer usar dados sintéticos para planejar cenários que ainda não experimentaram, como uma enorme colisão no tráfego de usuários.

À medida que os casos de uso continuam a surgir, mais ferramentas serão desenvolvidas e adicionadas ao cofre, diz Veeramachaneni. Pode ocupar a equipe por mais sete anos, pelo menos, mas eles estão prontos: “Estamos apenas tocando a ponta do iceberg”

FONTE: MIT

POSTS RELACIONADOS