O rastro de dados que deixamos com tudo o que fazemos não para de aumentar. Embora muitos deles, como a comida que pedimos em casa e o chuveiro que compramos online, não sejam muito interessantes, há outros muito pessoais, como diagnósticos médicos, orientação sexual e impostos.

O mecanismo mais comum com o qual as agências públicas protegem a anonimização de nossas identidades. Isso envolve a exclusão de dados que podem identificar claramente uma pessoa, como nomes, números de telefone, endereços de e-mail e assim por diante. Os conjuntos de dados também são modificados para serem menos precisos, algumas colunas são removidas das planilhas e o “ruído” é introduzido nos dados. As políticas de privacidade garantem que, graças a esse processo, não haja risco de estar localizado em um banco de dados.

No entanto, um novo estudo publicado na Nature Communications sugere que não é. Pesquisadores do Imperial College London (Reino Unido) e da Universidade Católica de Leuven (Bélgica) criaram um modelo de aprendizado de máquina que calcula exatamente como é fácil refazer a identificação de indivíduos de um conjunto de dados anônimos.

Nos EUA, três dados permitem que uma pessoa seja identificada corretamente em um banco de dados “anônimo” 81% do tempo. Com 15 dados demográficos de alguém que vive em Massachusetts (EUA), há uma chance de 99,98% de encontrar essa pessoa em qualquer banco de dados anônimo. “Quanto mais informações você insere, mais fácil e rápido é descartar outras pessoas”, explica o pesquisador do Imperial College London e um dos autores do estudo de Yves-Alexandre de Montjoye.

A ferramenta foi criada através do desenvolvimento de um banco de dados de 210 diferentes conjuntos de dados de cinco fontes, incluindo o censo dos EUA. 

Este não é o primeiro estudo que mostra como é fácil rastrear pessoas em bancos de dados anônimos. Um estudo de 2007 mostrou que algumas classificações de filmes no Netflix são suficientes para identificar uma pessoa tão facilmente quanto a partir de seu número de seguridade social, por exemplo. Além disso, o trabalho revela até que ponto as atuais práticas de anonimização tornaram-se obsoletas em face de nossa capacidade de decifrá-las. O fato de o conjunto de dados estar incompleto não protege mais a privacidade das pessoas, diz Montjoye.

Achou útil essa informação? Compartilhe com seus amigos! xD

Deixe-nos a sua opinião aqui nos comentário.