top of page

Privacidade diferencial

Como gerar agregados estatísticos com dados pessoais e ao mesmo tempo evitar ataques de reconstrução e vinculação que permitam identificar os indivíduos cujos dados estão sendo utilizados.

Imagem de um alvo sendo atingido por uma flexa que nĂŁo viaja em linha reta (trajetĂłria oscilante)

Sobre a Privacidade Diferencial

Imagem do autor

Este artigo apresenta uma introdução não matemática à privacidade diferencial. Nos últimos anos, com a chegada da regulamentação (GDPR, LGPD) e maior consciência sobre a importância da privacidade o assunto tem recebido enorme atenção, já existindo muitas implementações para casos de uso importantes.

A privacidade diferencial foi introduzida em 2006 por Cynthia Dwork, Frank McSherry, Kobbi Nissim e Adam Smith. Nos últimos anos, com a chegada da regulamentação e maior consciência sobre a importância da privacidade, o assunto tem recebido enorme atenção, já existindo muitas implementações para casos de uso importantes. Com a privacidade diferencial, as partes interessadas podem fazer consultas em conjuntos de dados e gerar estatísticas agregadas sem que seja possível a identificação de indivíduos específicos.

​

Com a privacidade diferencial, as partes interessadas podem fazer consultas em conjuntos de dados e gerar estatísticas agregadas sem que seja possível a identificação de indivíduos específicos. A contribuição dos dados de cada indivíduo pode ser “mascarada” a ponto de sequer ser possível saber se os dados foram ou não utilizados para a obtenção dos resultados das consultas. Assim, as agências de pesquisa podem publicar informações demográficas ou outros agregados estatísticos preservando a privacidade dos participantes das pesquisas. O mesmo mecanismo pode ser incorporado em
algoritmos para proteger resultados retornados por modelos de Machine Learning.

A privacidade diferencial é baseada na adição de “ruídos” estatísticos aos dados. Quanto mais ruído for adicionado ao resultado de uma consulta, maior será a privacidade. Por outro lado, a precisão dos resultados diminui, como ilustrado na imagem. O método tem rigor matemático e permite medir de forma quantitativa a perda de privacidade (privacy loss) para os indivíduos que pode decorrer de consulta feitas em conjuntos de dados. Além disso,  oferece proteção contra diversos ataques de privacidade como os ataques de reconstrução de bancos de dados. 

Imagem que mostra imagem com maior ruído (menor resolução) e menor ruído (maior resolução)

Tutoriais sobre Privacidade Diferencial 

A privacidade diferencial permite medir de forma quantitativa a perda de privacidade (privacy loss) que pode decorrer de consultas feitas em conjuntos de dados, além de oferecer proteção contra diversos ataques de privacidade. Compartilhamos abaixo alguns tutoriais em Python (Jupyter Notebooks) como referência.

Conteúdo compartilhado apenas para fins acadêmicos - não pode ser comercializado.
Apresentação: Márcio Galvão

 Caso de Uso: Histogramas

Duração: 15 minutos

 Caso de Uso: Diabetes - Classificação Binária com e sem Privacidade Diferencial

Duração: 22 minutos

Imagem do autor

 Caso de Uso: Demo de um Ataque de Reconstrução com e sem Privacidade Diferencial

Duração: 24 minutos

Anonimização não assegura privacidade

Imagem com texto ANONIMIZED DATA ISN'T

Referências selecionadas: Privacidade Diferencial para Desenvolvedores

Awesome Production Machine Learning

June 2023

Shaistha Fathima

Sep 15, 2020

Shaistha Fathima

Sep 13, 2020

Shaistha Fathima

Sep 14, 2020

Arturo Gonzalez

Fev 14, 2020

Krishnaram Kenthapadi

April 10, 2019

Nicolas Papernot and Ian Goodfellow

Apr 29, 2018

Referências selecionadas: Exemplos de implementação de Privacidade Diferencial

bottom of page