¿Qué es la privacidad diferencial?

La privacidad diferencial es una condición en un algoritmo que informalmente dice “Los pequeños cambios en la entrada solo deberían causar pequeños cambios en la salida”. La “entrada” aquí es una colección de registros de datos, uno de cada una de n personas. Un “pequeño cambio en la entrada” corresponde a cambiar el registro de exactamente una de esas personas. Y “un pequeño cambio en la salida” corresponde a cambiar la probabilidad de cualquier resultado en un factor como máximo de [matemáticas] \ exp (\ epsilon) \ aprox (1+ \ epsilon) [/ matemáticas], donde [matemáticas] \ epsilon [/ math] se conoce como el parámetro de privacidad.

¿Qué significa exactamente? Una interpretación es esta. Suponga que quiere saber cuáles son los datos de Alice. Ahora, en el peor de los casos sobre su creencia anterior sobre cómo se verían sus datos, y en el peor de los casos sobre los datos de las otras personas en el conjunto de datos, la privacidad diferencial garantiza que su creencia posterior acerca de que sus datos son FOO después de ver el resultado diferirá de su creencia anterior de que sus datos son FOO en un factor como máximo [math] (1+ \ epsilon) [/ math], para cualquier FOO (después de condicionar los datos de todos los demás en la base de datos).

Una cosa buena de la privacidad diferencial es que compone. Si ejecuto un algoritmo diferencialmente privado [math] \ epsilon_1 [/ math] en un conjunto de datos que contiene los datos de Alice, y luego ejecuto un algoritmo diferencialmente privado [math] \ epsilon_2 [/ math] en un conjunto de datos diferente que también contiene los datos de Alice, entonces con respecto a Alice, la composición de estos dos algoritmos es [matemática] (\ epsilon_1 + \ epsilon_2) [/ matemática] -diferencialmente privada.

Compare esto con algo así como una prueba de conocimiento cero, que es lo que Sidhanth describe (y no es diferencialmente privado). Supongamos que un grupo de personas, incluida Alice, usa el procedimiento de Sidhanth para calcular su salario promedio. Ahora Alice se levanta para usar el baño. Mientras ella está allí, todos los demás vuelven a ejecutar el procedimiento, para conocer el salario promedio de todos, excepto de Alice. Usando estos dos números, ahora saben exactamente el salario de Alice, lo que sería imposible bajo una privacidad diferencial.

Resulta que hay muchas cosas que puede hacer sujeto a una privacidad diferencial: puede responder exponencialmente muchas consultas sobre un conjunto de datos, puede hacer aprendizaje automático, puede hacer una optimización combinatoria y más. Este libro que escribí con Cynthia Dwork no es un mal lugar para comenzar si desea obtener más información: Página en upenn.edu.

Limita la pérdida de privacidad relacionada con la consulta.

Supongamos que tiene dos amigos inteligentes, F1 y F2;

  • recibió ofertas de trabajo O1 y O2 de una empresa; y
  • Usted espera un promedio de su salario por su oferta de la misma compañía.
  • Pero a tus amigos no les interesa revelar su oferta.
  • ¿Qué harás para obtener (O1 + O2) / 2?

Agregar ruido

Dígales que consideren un número aleatorio individualmente en secreto, como r1 para F1, r2 para F2. Con estos dos números aleatorios puede pasar por las fases con ruido y sin ruido para obtener el promedio deseado.

Fase Ruidada:

  1. F1 le dará el valor de (O1 + r1) a F2: F2 no sabe O1
  2. F2 te dará el valor de (O1 + r1 + O2 + r2): no sabes O1 u O2
  3. Le dará el valor de (O1 + r1 + O2 + r2 + ry) a F1: ry es su número aleatorio secreto.

Fase Denoised:

  1. F1 dará el valor de (O1 + r1 + O2 + r2 + ry -r1) a F2:
  2. F2 le dará el valor de (O1 + r1 + O2 + r2 + ry -r1-r2), que es igual a (O1 + O2 + ry).
  3. Calculará el valor de (O1 + r1 + O2 + r2 + ry -r1-r2-ry): ya sabe (O1 + O2)

Entonces, sabes el promedio (O1 + O2) / 2.

Esto funcionará para más amigos, también. Pero el uso múltiple de dicha técnica, ya que una consulta no podrá mantener la privacidad.

Problema principal como consulta:

Considere que tiene otro amigo F3 con salario O3, y ha realizado el procedimiento anterior para obtener el salario promedio de sus tres amigos, (O1 + O2 + O3) / 3.

Ahora, usando estos dos promedios, ya sabe cuál es el salario de F3.

Pérdida de privacidad.

Solución con probabilidad

Pero si tienes infinitos amigos, puedes tomar la ayuda de la probabilidad.

  1. Puedes decirle a todos un valor de R
  2. Aconseje a todos que agreguen un ruido como valor aleatorio entre cero y R con su salario respectivo.
  3. Entonces, el sueldo ruidoso de todos está expuesto. Pero, el promedio de todos los ruidos será R / 2.
  4. Finalmente, el salario promedio será el promedio de todos los salarios sonoros menos R / 2.

Concurso de premios de Netflix

Netflix publicó calificaciones de películas de suscriptores con cuidadosos esfuerzos para proteger la privacidad. Pero, Narayanan y Shmatikov más tarde pudieron identificar algunos de los registros privados, utilizando algunos datos auxiliares disponibles en el conjunto de datos públicos.

Configuración del problema de formulación matemática

La formulación matemática de la privacidad diferencial desacopla a los atacantes del enunciado del problema.

Un registro corresponde a los datos privados de un individuo, y dos bases de datos son vecinas si difieren en un solo registro. Los siguientes son los componentes:

  • D y D ‘: dos conjuntos múltiples de registros y vecinos.
  • M: Un mecanismo que calcula una salida dada la base de datos.
  • R: rango de M
  • S: cualquier subconjunto de R
  • ε: un parámetro, que se utilizará para el equilibrio entre privacidad y precisión

Para certificar que el mecanismo M es ε-diferencialmente privado, se debe cumplir la siguiente condición:

  • Probabilidad de [M (D) ∈ S] ≤ exp (ε) · Probabilidad de [M (D ‘) ∈ S].

Parámetro clave ϵ

Es el parámetro principal para garantizar la privacidad. El riesgo para la privacidad debe estar limitado por un parámetro ε como resultado de participar en una base de datos estadística. Si desea más privacidad, la calidad de la base de datos debería degradarse más.

Además, para generalizar la privacidad diferencial , se usa otro parámetro, δ, en la privacidad diferencial (ε, δ).

Pero, no en la privacidad uniformemente diferencial .

Más estudio:

  • Los fundamentos algorítmicos de la privacidad de datos con el instructor: Aaron Roth,
  • Una base firme para el análisis de datos privados,
  • Tutorial sobre privacidad diferencial,
  • Diseño de mecanismos a través de privacidad diferencial,
  • Calibración de ruido a sensibilidad en análisis de datos privados,
  • Privacidad diferencial en teoría de juegos y diseño de mecanismos,
  • Temas especiales en privacidad de datos,
  • Rapport,
  • Estadísticas de aprendizaje con privacidad ayudadas por el lanzamiento de una moneda,
  • Un método económico para elegir Epsilon,
  • PINQ, Airavat,
  • Privacidad de la base de datos,
  • Privacidad diferencial: los fundamentos.

Privacidad cuántica

No puede identificar a la persona ni observar la información personal simultáneamente a la perfección.

Privacidad neuronal

¿Cómo usar la privacidad en una base de datos de redes neuronales?

Privacidad Preservando el Back-Propagation Aprendizaje de redes neuronales práctico con Cloud Computing

  • Transacciones IEEE en sistemas paralelos y distribuidos, número 1, fecha enero de 2014
  • Jiawei Yuan; Departamento de Computación. Sci., Univ. de Arkansas en Little Rock, Little Rock, AR, Estados Unidos; Shucheng Yu.

Esta es una respuesta muy simplificada, pero espero que ayude a capturar su intuición.

Suponga que desea participar en una investigación siendo un encuestado. Es posible que le preocupe qué tan mala su participación pueda tener un impacto negativo para usted en comparación con su ausencia. La privacidad diferencial asegura que su participación tendrá una probabilidad muy pequeña de tener un resultado peor que su ausencia.

Veamos la definición (simplificada)

Un algoritmo aleatorio [matemático] M [/ matemático] es [matemático] \ epsilon [/ matemático] -principalmente privado si para dos bases de datos [matemático] D [/ matemático] y [matemático] D ‘[/ matemático] difieren en una entrada , y un resultado [matemáticas] S [/ matemáticas] sostiene que

[matemáticas] Pr [M (D) \ en S] \ le e ^ \ epsilon Pr [M (D ‘) \ en S]. [/ matemáticas]

Suponga que el resultado [matemática] S [/ matemática] le lleva a un mal evento y la base de datos [matemática] D [/ matemática] es la base de datos [matemática] D ‘\ cup \ {Your Entry \} [/ matemática]. Esta definición básicamente dice que la probabilidad de que ocurra el evento incorrecto si la base de datos con su entrada está limitada por el presupuesto de privacidad [math] \ epsilon [/ math] y la probabilidad de que ocurra el evento incorrecto si la base de datos no tiene tu entrada en ella. Esto significa que si la probabilidad de un mal evento es baja cuando no participó, la probabilidad seguirá siendo baja si elige participar.

Pero como puede ver, si la probabilidad de un mal evento ya es alta cuando no participó, entonces la probabilidad sigue siendo alta cuando elige participar. Esto significa que la Privacidad diferencial no creará la privacidad que nunca tiene.

El presupuesto de privacidad [matemática] \ epsilon [/ matemática] simplemente cuantifica cuánto se desviará la probabilidad cuando elija participar en comparación con cuando no participó. Esto significa que si el [math] \ epsilon [/ math] es muy pequeño, la probabilidad del mal evento cuando elige participar es casi la misma que cuando no participó.

Editar: Me equivoqué en mi comprensión de la privacidad diferencial y, como señaló Aaron Roth, el siguiente ejemplo no es diferencialmente privado. No lo he eliminado desde que Aaron menciona esto en su respuesta, lo siguiente es lo que había escrito.

La respuesta de Nilesh captura el concepto, pero deseo complementar eso con un ejemplo.

Aquí hay un problema que se puede resolver a través de métodos de privacidad diferencial. (Lo escuché en la charla de Andrew Moore en CMU, así que le doy crédito)
Supongamos que tiene una habitación con 20 personas y desea encontrar el salario promedio de ellos sin tener a una sola persona que revele su salario a otra persona, ¿cómo haría esto?

Un método de privacidad diferencial que logra resolver este problema es el siguiente.
Primero, indexe arbitrariamente a las personas del 1 al 20, y la persona 1 elige un número aleatorio del orden de la magnitud de mil millones y agrega su salario al número. Le pasa un trozo de papel con este número a la persona 2. La persona 2 agrega su salario al número y le pasa el nuevo número a la persona 3. Este proceso continúa hasta que la persona 20 agrega su salario y le devuelve el número a la persona 1. Persona 1 resta el número aleatorio que eligió inicialmente del número que le pasó la persona 20 y eso le da la suma de los salarios de las personas en la habitación. Dividir por 20 daría el salario promedio.

De esta manera, se conoce el salario promedio sin que se filtre ningún salario individual a nadie más.

La privacidad diferencial es el concepto matemático por el cual se mide cuánto (o qué tan poco) una base de datos conserva el anonimato (es decir, evitar problemas como el anterior). Agregar ruido aleatorio es un método para lograr (con suerte) cierto nivel de privacidad diferencial. Este no es el único método posible, pero al menos es relativamente sencillo de implementar, y podemos calcular cuánto protege el anonimato, es decir, en el formalismo matemático, cuál es el valor alcanzado de “ε” en la expresión “la base de datos asegura la privacidad ε-diferencial “.
Agregar ruido es una compensación: brinda cierta privacidad a expensas de la usabilidad, ya que los valores devueltos son “ruidosos”, por lo tanto imprecisos. Si desea más privacidad, debe degradar la calidad de las respuestas de la base de datos. La investigación sobre la privacidad diferencial se concentra en encontrar nuevos algoritmos para devolver respuestas más precisas a consultas estadísticas mientras se protege mejor la privacidad. Tales algoritmos novedosos son pesados ​​en matemáticas.

Una explicación simplificada con un ejemplo: Privacidad diferencial: lo básico

More Interesting

¿Por qué las empresas como Google, Microsoft y Facebook publican su trabajo en lugar de guardar los hallazgos como secretos industriales?

¿Qué área de investigación debo elegir? Tengo opciones entre "Semántica de lenguajes de programación" y "Algoritmos y criptografía" de investigación para mi tesis de maestría, y estoy extremadamente confundido en las circunstancias.

¿Es mejor obtener una carta de recomendación del programa de doctorado de un profesor que publica regularmente o de un profesor que no publica regularmente?

¿Qué tan prestigioso es publicar en NIPS?

¿Cómo puede un estudiante universitario publicar un artículo de revista? ¿Qué tan difícil es hacer? ¿Qué consejos y estrategias recomendaría la gente?

¿Cuáles son las áreas de investigación en informática?

¿Cuál es el campo donde la investigación tiene la aplicación más rápida?

¿Cuáles son los mejores trabajos académicos en informática? ¿Por qué?

¿Qué campo de investigación combina informática y física?

¿Los diferentes idiomas introducen su propia sobrecarga cuando hacen computación paralela?

¿Cómo debe un junior de Ingeniería de Software llegar a un Científico de Investigación?

Mi trabajo de tesis está relacionado con el aprendizaje automático. ¿Alguien puede sugerir algún trabajo de aprendizaje automático que contenga alguna investigación que pueda completar en los próximos dos meses?

¿Cuál es la investigación actual sobre la teoría de la computabilidad?

¿Cuáles son algunos requisitos previos para un investigador en ciencias de la computación en IIT, IISc, etc.?

¿Cuáles son algunos documentos que demuestran el uso de la teoría de la representación en informática?