Márcio Galvão - Research
Privacidade diferencial
Como gerar agregados estatísticos com dados pessoais e ao mesmo tempo evitar ataques de reconstrução e vinculação que permitam identificar os indivíduos cujos dados estão sendo utilizados.

Sobre a Privacidade Diferencial

Artigo (PDF): Sobre a Privacidade Diferencial
Márcio Galvão
Este artigo apresenta uma introdução não matemática à privacidade diferencial. Nos últimos anos, com a chegada da regulamentação (GDPR, LGPD) e maior consciência sobre a importância da privacidade o assunto tem recebido enorme atenção, já existindo muitas implementações para casos de uso importantes.
A privacidade diferencial foi introduzida em 2006 por Cynthia Dwork, Frank McSherry, Kobbi Nissim e Adam Smith. Nos últimos anos, com a chegada da regulamentação e maior consciência sobre a importância da privacidade, o assunto tem recebido enorme atenção, já existindo muitas implementações para casos de uso importantes. Com a privacidade diferencial, as partes interessadas podem fazer consultas em conjuntos de dados e gerar estatísticas agregadas sem que seja possível a identificação de indivíduos específicos.
â
Com a privacidade diferencial, as partes interessadas podem fazer consultas em conjuntos de dados e gerar estatísticas agregadas sem que seja possível a identificação de indivíduos específicos. A contribuição dos dados de cada indivíduo pode ser “mascarada” a ponto de sequer ser possível saber se os dados foram ou não utilizados para a obtenção dos resultados das consultas. Assim, as agências de pesquisa podem publicar informações demográficas ou outros agregados estatísticos preservando a privacidade dos participantes das pesquisas. O mesmo mecanismo pode ser incorporado em
algoritmos para proteger resultados retornados por modelos de Machine Learning.
A privacidade diferencial é baseada na adição de “ruídos” estatísticos aos dados. Quanto mais ruído for adicionado ao resultado de uma consulta, maior será a privacidade. Por outro lado, a precisão dos resultados diminui, como ilustrado na imagem. O método tem rigor matemático e permite medir de forma quantitativa a perda de privacidade (privacy loss) para os indivíduos que pode decorrer de consulta feitas em conjuntos de dados. Além disso, oferece proteção contra diversos ataques de privacidade como os ataques de reconstrução de bancos de dados.

Tutoriais sobre Privacidade Diferencial
A privacidade diferencial permite medir de forma quantitativa a perda de privacidade (privacy loss) que pode decorrer de consultas feitas em conjuntos de dados, além de oferecer proteção contra diversos ataques de privacidade. Compartilhamos abaixo alguns tutoriais em Python (Jupyter Notebooks) como referência.
Conteúdo compartilhado apenas para fins acadêmicos - não pode ser comercializado.
Apresentação: Márcio Galvão
Caso de Uso: Histogramas
Duração: 15 minutos
Caso de Uso: Diabetes - Classificação Binária com e sem Privacidade Diferencial
Duração: 22 minutos

Artigo (PDF): Ataques de Privacidade
Márcio Galvão
Caso de Uso: Demo de um Ataque de Reconstrução com e sem Privacidade Diferencial
Duração: 24 minutos
Anonimização não assegura privacidade

Simson Garfinkel et al
November 28, 2018
Latania Sweeney et al
November 12, 2018
Keerthana Rajendran et al
December 2017
Arvind Narayanan and Vitaly Shmatikov
2008
Referências selecionadas: Privacidade Diferencial para Desenvolvedores
Awesome Production Machine Learning
June 2023
Google - Differential Privacy GitHub repository
April 17, 2023
Kyle Wiggers
January 28, 2022
Shaistha Fathima
Oct 1, 2020
Nicolas Papernot and Ian Goodfellow
Apr 29, 2018
Referências selecionadas: Exemplos de implementação de Privacidade Diferencial
LinkedIn
Ryan Rogers et al
16 Nov 2020
Facebook
Chaya Nayak
Feb 2020
New privacy-protected Facebook data for independent research on social mediaâs impact on democracy