Pesquisadores dizem que é fácil reverter dados anonimizados e identificar pessoas
Apenas por existir no mundo moderno você já cede suas informações para incontáveis instituições e serviços. Embora empresas prometam manter seguro seus dados identificáveis e privados, elas ainda podem compartilhar versões anonimizadas de seus dados com terceiros, podendo ser tanto para pesquisa como para lucrar. No entanto, um novo estudo indica que mesmo quando o dado é quebrado para remoção de fatores identificáveis, não requer muito trabalho para reunir algumas pistas e identificar o usuário “anônimo” daquele conjunto de informações.
Em outras palavras, dados anonimizados não são lá muito anônimos.
Pesquisadores do Imperial College London publicaram um artigo na Nature Communications na terça-feira (23) que explorou como as técnicas atuais são inadequadas para anonimizar um conjunto de dados. Antes de uma empresa compartilhar um conjunto de informações, eles removem as informações de identidade, como nomes e e-mail, mas os pesquisadores conseguiram “jogar” com este sistema.
Usando um modelo de machine learning e conjuntos de dados que incluíam até 15 características identificáveis — como idade, sexo e estado civil — os pesquisadores conseguiram identificar com precisão 99,98% dos americanos em um conjunto de dados anônimos, de acordo com o estudo.
Para suas análises, os pesquisadores usarem 210 conjuntos de dados diferentes que foram coletados de cinco fontes, incluindo o governo dos EUA, que continham informações sobre mais de 11 milhões de indivíduos. Especificamente, os pesquisadores definiram suas descobertas como um esforço bem sucedido para propor e validar “um modelo estatístico para quantificar a probabilidade de uma tentativa de reidentificação ser bem sucedida, mesmo se o conjunto de dados divulgado estiver muito incompleto’.
De modo geral, o argumento da equipe de pesquisa é que dado um conjunto de dados, eles conseguem treinar um modelo para gerar um índice de “singularidade” da população. Quanto mais atributos estiverem disponíveis, melhor a precisão da identificação de uma pessoa.
O autor principal, Dr. Yves-Alexandre de Montjoye, um pesquisador do departamento de computação e instituto de ciência de dados da Imperial College, caracterizou tais atributos como “informações bem padrão que as companhias pedem”.
Apesar de parecer inofensivo, tem gente que está se preocupando que dados anonimizados sejam disponibilizados para grandes empresas. Em junho deste ano, um paciente do Centro Médico da Universidade de Chicago (EUA) entrou com uma ação coletiva contra uma universidade privada e o Google para que a instituição não compartilhasse seus dados sem haver consentimento claro.
O centro médico supostamente anonimizou o conjunto de dados, mas ainda cedeu ao Google registros como altura, paciente, peso, sinais vitais, informações sobre doenças, procedimentos médicos a que foram submetidos e medicações em uso. A denúncia apontava que, além da quebra de privacidade no compartilhamento de dados íntimos sem o consentimento de um paciente, mesmo que fosse de alguma forma anonimizado, as ferramentas disponíveis para uma poderosa corporação de tecnologia facilitam a engenharia reversa dessas informações e identificar um paciente.
“Empresas e governos têm minimizado os riscos da re-identificação ao argumentar que os conjuntos de dados acessados estão sempre incompletos”, disse de Montjoye em um comunicado. “Nossas descobertas contradizem isso e demonstram que um invasor pode estimar com facilidade e precisão a probabilidade de que o registro encontrado pertence à pessoa que se está procurando”.
Os pesquisadores colocam o ônus sobre os legisladores para criar melhores padrões para técnicas de anonimização, com o objetivo de garantir que o compartilhamento de conjuntos de dados não continue a ser uma invasão de privacidade potencialmente abrangente.
Algumas das empresas mais poderosas do mundo estão obtendo conjuntos de dados que fornecem informações suficientes para identificar com segurança alguém — as consequências tanto dessas empresas como de agentes mal-intencionados de montar um quebra-cabeça e criar uma imagem completa de alguém são recorrentes, e a habilidade dos pesquisadores de identificar uma quantidade tão grande de usuários com apenas 15 atributos indica que precisamos reavaliar o que constitui um conjunto de dados éticos e anônimo.
“O objetivo da anonimização é para que possamos usar os dados para beneficiar a sociedade”, disse de Montjoye. “Isso é extremamente importante, mas não deve e não precisa acontecer às custas da privacidade das pessoas.”