Informações Pessoais E Sociais De 1,2 Bilhão De Pessoas Descobertas Em Vazamento Massivo De Dados
Em 16 de outubro de 2019, Bob Diachenko e Vinny Troia descobriram um servidor Elasticsearch aberto, contendo 4 bilhões de contas de usuários sem precedentes , abrangendo mais de 4 terabytes de dados .
Uma contagem total de pessoas únicas em todos os conjuntos de dados atingiu mais de 1,2 bilhão de pessoas, tornando este um dos maiores vazamentos de dados de uma única organização de origem na história. Os dados vazados continham nomes, endereços de email, números de telefone, informações de perfil do LinkedIN e do Facebook.
O que torna esse vazamento de dados exclusivo é que ele contém conjuntos de dados que parecem se originar de duas empresas diferentes de enriquecimento de dados.
Como Funciona O Enriquecimento De Dados?
Por um preço muito baixo, as empresas de enriquecimento de dados permitem coletar uma única informação sobre uma pessoa (como nome ou endereço de email) e expandir (ou enriquecer) esse perfil de usuário para incluir centenas de novos pontos de informações adicionais. . Como observado com a violação de dados Exactis , as informações coletadas em uma única pessoa podem incluir informações como tamanho da família, finanças e renda, preferências políticas e religiosas e até mesmo as atividades sociais preferidas de uma pessoa.
Cada vez que uma empresa escolhe “enriquecer” um perfil de usuário, ela também concorda em fornecer o que sabe sobre a pessoa à organização enriquecedora (aumentando assim a validade dos resultados futuros da organização). Apesar dos esforços de organizações de mídia social como o Facebook, os dados resultantes continuam a ser compostos, criando uma situação sem supervisão que, em última análise, permite que todas as informações sociais e pessoais de uma pessoa sejam facilmente baixadas.
O Servidor Elasticsearch Aberto
O servidor Elasticsearch descoberto, contendo todas as informações, estava desprotegido e acessível via navegador da web em http://35.199.58.125:9200. Nenhuma senha ou autenticação de qualquer tipo foi necessária para acessar ou baixar todos os dados.
O Elasticsearch armazena suas informações em um índice, semelhante a um tipo de banco de dados. A seguir, uma captura de tela dos diferentes índices (bancos de dados) disponíveis no servidor descoberto.
A maioria dos dados abrangeu quatro índices de dados separados, rotulados como “PDL” e “OXY”, com informações sobre aproximadamente 1 bilhão de pessoas por índice. Cada registro do usuário nos bancos de dados foi rotulado com um campo “source” que correspondia ao PDL ou ao Oxy, respectivamente.
Empresa 1: People Data Labs (PDL)
Com base em nossa análise dos dados, acreditamos que os dados nos índices PDL são originários do People Data Labs , uma empresa de agregação e enriquecimento de dados.
A desduplicação dos quase 3 bilhões de registros de usuários PDL revelou cerca de 1,2 bilhão de pessoas únicas e 650 milhões de endereços de email únicos, o que está alinhado com as estatísticas fornecidas em seu site. Os dados nos três índices PDL diferentes também variaram um pouco, alguns focando em informações, endereços de e-mail e números de telefone vinculados do LinkedIN, enquanto outros índices forneciam informações sobre perfis de mídia social individuais, como os URLs do Facebook, Twitter e Github de uma pessoa.
Segundo o site, o aplicativo PDL pode ser usado para pesquisar:
- Mais de 1,5 bilhão de pessoas únicas, incluindo cerca de 260 milhões nos EUA.
- Mais de 1 bilhão de endereços de email pessoais. Email de trabalho para mais de 70% dos tomadores de decisão nos EUA, Reino Unido e Canadá.
- Mais de 420 milhões de URLs do Linkedin
- Mais de 1 bilhão de URLs e IDs no Facebook.
- 400 milhões + números de telefone. Mais de 200 milhões de telefones celulares válidos nos EUA.
Atribuição Ao PDL
Após notificar a PDL, fomos informados de que o servidor em questão não pertence a eles. Isso é consistente com nossa pesquisa, pois o servidor em questão residia no Google Cloud, enquanto a API PDL parece usar o Amazon Web Services.
Para testar se os dados pertencem ou não à PDL, criamos uma conta gratuita em seu site, que fornece aos usuários 1.000 consultas gratuitas por mês.
A seguir, uma amostra parcialmente editada do meu registro pessoal, baixada do servidor 35.199.58.125.
- {
- “id” : nulo ,
- “status” : “criado” ,
- “guid” : nulo ,
- “posições” : [ {
- “id” : nulo ,
- “title” : “evangelista de segurança, hacker, consultor principal” ,
- “descrição” : nulo ,
- “location” : “saint louis, missouri, estados unidos” ,
- “position_type” : “Atual” ,
- “company_name” : “segurança do leão noturno” ,
- “company_url” : “twitter.com/nightlion” ,
- “start_date_year” : 2015 ,
- “end_date_year” : null ,
- “start_date_month” : 9 ,
- “end_date_month” : null ,
- “company_website” : “nightlionsecurity.com” ,
- “company_size” : “1-10” ,
- “company_industry” : “tecnologia e serviços de informação”
- } ] ,
- “fonte” : “PDL” ,
- “agendado” : nulo ,
- “full_name” : “vinny troia” ,
- “first_name” : “vinny” ,
- “last_name” : “troia” ,
- “url_profile” : “https://www.linkedin.com/in/vinnytroia” ,
- “id_external_profile” : “vinnytroia” ,
- “short_bio” : “CEO, cyber / risco federal mgmt pro, hacker, solucionador de problemas, disjuntor – destaque: fox / cnbc / abc na night lion security. CEO, gerenciamento de risco profissional, hacker, solucionador de problemas, disjuntor – destaque : fox / cnbc / abc. cyber security pro | fedramp, fisma, nist guru | hacker ético, hacker investigador forense. cyber security pro | hacker forense investigador | gerenciamento de risco, nist, fedramp. autor da dissertação nist csf. hacker, orador principal de cibersegurança, osint, dfir, evangelista de segurança. hacker, evangelista cibernético, orador principal, autor da dissertação nist csf. saúde, meio ambiente e segurança. área maior de st. louis. ” ,
- “is_deleted” : false ,
- “created_id” : 1111 ,
- “created_dt” : 1565870400000 ,
- “updated_id” : 1111 ,
- “updated_dt” : nulo ,
- “timezone_id” : null ,
- “timezone_name” : null ,
- “timezone_geocoding_latitude” : nulo ,
- “timezone_geocoding_longitude” : null ,
- “lip_location” : “ballwin, missouri, estados unidos” ,
- “is_tc” : nulo ,
- “is_payment” : null ,
- “título” : nulo ,
- “industry” : “computer & network security” ,
- “linkedin_recruiter_profile_url” : null ,
- “location_shape” : {
- “coordenadas” : [ – 90,54 , 38,59 ] ,
- “type” : “point”
- } ,
- “location_level” : null ,
- “emails” : “vinnytroia @ *, vinny @ ****, vt @ ***” ,
- “phone_numbers” : “314 *******, 941 *******, 3146696569,1-636-825-2744” ,
- “experience_years” : 4 ,
- “is_scheduled” : null
- }
Quase 100% De Correspondência De Dados
Os dados descobertos no servidor aberto do Elasticsearch eram quase uma correspondência completa com os dados retornados pela API do People Data Labs. A única diferença sendo os dados retornados pelo PDL também continha histórias de educação. Não havia informações educacionais em nenhum dos dados baixados do servidor. Todo o resto era exatamente o mesmo, incluindo contas com vários endereços de e-mail e vários números de telefone.
Para confirmar, testamos aleatoriamente 50 outros usuários e os resultados sempre foram consistentes.
Uma partida interessante e única
Um dos números de telefone retornados para o meu perfil era 1-636-825-2744. Não me lembro de ter esse número de telefone, então decidi investigar. Cerca de dez anos atrás, recebi uma linha fixa como parte de um pacote de TV da AT&T. O telefone fixo nunca foi usado e nunca foi dado a ninguém – eu nunca tinha um telefone, mas de alguma forma essas informações aparecem no meu perfil.
Quando verifiquei minha conta no PeopleDataLabs.com, os resultados retornados foram idênticos – incluindo o número de telefone.
Como nunca vi esse número de telefone aparecer em nenhum dos meus registros violados / que vazaram anteriormente, isso é uma indicação muito boa de que o banco de dados vazado se originou da PDL.
Empresa 2: OxyData.Io (OXY)
Após algumas investigações básicas, deparei-me com a OxyData.io , outra empresa de enriquecimento de dados. O site da OxyData afirma ter 4 TB de dados do usuário (exatamente a quantidade descoberta), mas apenas 380 milhões de perfis de pessoas.
Análise OxyData
A análise do banco de dados “Oxy” revelou um rascunho quase completo dos dados do LinkedIN, incluindo informações do recrutador.
Ao entrar em contato com a OxyData, também fui informado de que o servidor não pertencia a eles. Oxy não estava disposta a me dar acesso à API deles para testar / comparar perfis, mas eles foram legais o suficiente para me enviar uma cópia do meu próprio registro para análise. Os dados que eles enviaram continham principalmente o perfil LinkedIN raspado e parecem corresponder aos dados dos dados.
Quem É Responsável?
Esta é uma situação incrivelmente complicada e incomum. A maior parte dos dados é marcada como “PDL”, indicando que se originou do People Data Labs. No entanto, até onde sabemos, o servidor que vazou os dados não está associado ao PDL. Isso levanta várias outras questões. Primeiro, como essa organização misteriosa conseguiu os dados? Eles são clientes atuais ou antigos? Nesse caso, os dados descobertos no servidor indicam que esta empresa é cliente do People Data Labs e do OxyData.
Se esse era um cliente que tinha acesso normal aos dados da PDL, isso indicaria que os dados não foram realmente “roubados”, mas sim mal utilizados. Infelizmente, isso não facilita os problemas de qualquer um dos 1,2 bilhões de pessoas que tiveram suas informações expostas.
Se não houve violação, quem é responsável por essa exposição?
O Problema Da Atribuição
A identificação de servidores expostos / sem nome é uma das partes mais difíceis de uma investigação. Nesse caso, tudo o que podemos dizer do endereço IP (35.199.58.125) é que ele é (ou foi) hospedado no Google Cloud.
Por causa de preocupações óbvias de privacidade, os provedores de nuvem não compartilharão nenhuma informação sobre seus clientes, tornando isso um beco sem saída.
Agências como o FBI podem solicitar essas informações por meio de processo legal (um tipo de solicitação oficial do governo), mas não têm autoridade para forçar a organização identificada a divulgar a violação.
Pode-se argumentar que, como os dados da PDL foram mal utilizados, cabe a eles notificar seus clientes. Pode-se também argumentar que o proprietário do 35.199.58.125 é responsável e responsável por quaisquer danos potenciais. Legalmente, porém, não temos como saber quem é esse sem ordem judicial.
Devido à enorme quantidade de informações pessoais incluídas, combinada com as complexidades que identificam o proprietário dos dados, isso tem o potencial de levantar questões sobre a eficácia de nossas leis atuais de privacidade e de notificação de violação.
FONTE: DataViper