Quando pensamos em dados que possam nos identificar costumamos imaginar em informações de endereço que podem ser utilizados por apps de mapas ou características como opção sexual que poderiam ser vendidas para anunciantes. Muitas empresas que lidam com essas informações, no entanto, gostam de dizer que todos esses dados são “anonimizados” – ou seja, ligados a algo como um endereço de IP, em vez de um nome. Porém, esse conceito está se revelando uma grande mentira.

A última prova disso é uma ferramenta desenvolvida por dois estudantes de Harvard, Dasha Metropolitansky e Kian Attari, que faz uma varredura a partir de conjuntos de dados de consumidores que foram vazados na web.

Metropolitansky e Attari explicaram à Motherboard que o programa foi criado para juntar e ligar informações “não tão anônimas” – como e-mails e nomes de usuário – a dados “anônimos” que foram encontrados em bases de dados vazadas de praticamente mil domínios diferentes, indo desde a Adobe ao YouPorn.

E apesar desses conjuntos de dados serem “anonimizados”, identificar alguém em um determinado vazamento não é nada difícil, segundo os pesquisadores.

Primeiro, vamos esclarecer algumas coisas. Grandes data brokers (organizações que se dedicam a compilar e a vender informação de consumidores na internet) não irão armazenar nada explicitamente pessoal sobre você – a pessoa que lê esta matéria –, simplesmente porque não há valor nisso.

Mesmo que os anúncios que nos perseguem pela web pareçam sugerir o contrário, os marqueteiros não se importam com as suas esperanças, os seus sonhos, os seus medos, a academia específica que frequenta ou como você se identifica sexualmente – pelo menos não a um nível individual.

O que importa para eles é exibir anúncios específicos para uma demografia específica, algo que, em última análise, está ligada a informações sobre onde você vive, onde você faz compras e, em alguns casos, qual é a sua opção sexual.

Vou dar um exemplo pessoal: baseado nos meus rastros de localização – que envolve compras em lojas de petshop, lojas de conveniência e alguns dos bares gays da minha cidade, marqueteiros poderiam exibir anúncios relacionados a gatos, itens de conveniência, ou qualquer coisa bissexual com a confiança de que não estariam jogando dinheiro fora com publicidade. Eles não precisam saber quem eu sou – só precisam de uma forma de atingir um grupo demográfico daquele que eu faço parte.

Grandes data brokers tem conjuntos de informações agregadas sobre mim que são extremamente valiosas, uma vez que podem exibir anúncios com uma precisão surpreendente. Nenhum desses pontos de dados estarão necessariamente ligados a mim. A ligação entre essas informações provavelmente está no endereço de IP único do meu computador ou o identificador do meu smartphone, que são, por si só, anônimos.

Mesmo esse ponto de dado em particular (IP ou identificar) não vale realmente a pena – os anunciantes, no dia a dia, estão analisando os meus dados (e os seus) como se estivessem agregados com informações de um número incalculável de outras pessoas.

Os “dados” individuais de uma pessoa, por si só, não valem praticamente nada; afinal de contas, os marqueteiros não podem garantir que eu ire i clicar em um determinado anúncio ou comprar um produto que eles estão vendendo. O valor está nos dados agregados, mesmo que sejam “anonimizados” e não vinculados a nenhum indivíduo.

É por isso que o Facebook, por exemplo, pode dizer que está ganhando cerca de US$ 26 por cada usuário conectado ao seu sistema – a única razão pela qual ele pode dizer isso é porque ele está monitorando o que bilhões de pessoas no total estão fazendo na sua plataforma e fora dela.

Um data broker pode conseguir ligar o meu comportamento a algo como meu endereço de IP e um outro data broker talvez consiga fazer essas conexões por meio de uma estimativa da minha geolocalização. Essas duas coisas não são grandes problemas.

O problema é o que acontece quando esses pontos de dados “anonimizados” acabam saindo do ecossistema do marketing e alguém malicioso passa a usá-los. Em outras palavras, quando um data broker sofre um vazamento, as coisas começam a ficar feias – e quando vários data brokers sofrem vários vazamentos com o passar do tempo, alguém pode juntar essas informações de uma forma que a transforma em algo muito preciso.

É por isso que a defesa de “dados anônimos” dos marqueteiros e data brokers não significa muita coisa. Eles recorrem a essa linha de pensamento para manter a consciência limpa, sabendo que a coleta de dados estaria de acordo com as regras.

Ao mesmo tempo, algumas dessas empresas vazaram quase 8 bilhões de registros ao longo do ano passado, o que acaba por negar essa lógica de segurança. E, no final das contas, alguém poderia te identificar e traçar um perfil com facilidade.