¿Cuáles son algunos casos de uso para el anonimato de datos?

Para evitar incidentes como este:

Fuga de datos de búsqueda de AOL – Wikipedia

O estos:

Lista de violaciones de datos – Wikipedia

El breve formulario en el primer enlace: un investigador de AOL publicó registros de búsqueda de usuarios con fines de investigación. Solo el historial de búsqueda: nada para vincular los datos a los usuarios. Compartir datos en el mundo de la investigación suele ser de gran ayuda. Por ejemplo, hay conjuntos de datos comunes como muestras de escritura a mano MNIST, el texto de Wikipedia y varios otros tipos de datos que se comparten abiertamente y se usan como un corpus común para experimentar e informar resultados con el aprendizaje automático y similares. Entonces, compartir el historial de búsqueda de AOL es algo bueno, ¿verdad?

Bueno no. Resulta que las búsquedas a menudo contienen información de identificación personal, y simplemente “no adjuntarla a un usuario” no es suficiente para garantizar que no pueda identificar al usuario que la generó. Eso es exactamente lo que hizo el NY Times: analizaron los datos, encontraron un usuario que podían identificar a través de los registros, y IIRC (lo admitimos, esto fue hace una década) contactó al usuario para obtener sus comentarios sobre su historial de búsqueda que se comparte.

AOL retrocedió rápidamente (los datos solo estuvieron disponibles durante unos días) después de recibir una reacción violenta; después de todo, no es como si los usuarios optaran explícitamente por compartir su historial de búsqueda.

Moraleja de la historia: hay conjuntos de datos basados ​​en datos de usuarios que son absolutamente valiosos para compartir, pero desea proteger la privacidad de los usuarios que crearon los datos.

Pero no es solo un intercambio externo. Para las empresas que manejan datos de usuarios, generalmente no desea que todos en la empresa tengan acceso a cada dato. Un ejemplo extremo, pero ¿hay alguna razón por la que necesite que el Conserje de su empresa tenga acceso a los números de teléfono y las direcciones de los usuarios? Probablemente no, ¿verdad?

Bueno, puede extender esa idea: si hay una persona trabajando en un motor de recomendación para su producto, ¿necesitan acceso a números de teléfono y direcciones? Posiblemente, pero por defecto, no. Por lo tanto, no les dé acceso a menos que vengan a usted con una razón convincente. Al restringir el acceso a datos sin procesar a un pequeño número de personas que tienen una razón comercial para acceder a los datos, lo que reduce en gran medida la posibilidad de fugas y el área de superficie para las infracciones de datos.

Pero, ¿qué pasa con las personas que trabajan en el motor de recomendación? ¿Qué deben hacer ellos? Bueno, resulta que a menudo puedes usar datos agregados o anónimos en su lugar. ¿Qué aspectos de un número de teléfono le interesan? Quizás pueda sobrevivir con funciones como: IsLandline o CountryCode, en lugar del número sin formato. Si tuviera que filtrar mi información, preferiría que filtre que tengo un teléfono fijo de EE. UU. Y que vivo en California y estoy en el rango de edad XX-YY vs. “mi número de teléfono es xxxxxx y mi dirección es aaaaaaaa y mi edad es zz ”

Tenga en cuenta que en una gran empresa puede haber docenas de proyectos que hacen uso de los datos del usuario de alguna forma. Si todos ellos tienen acceso total a los datos sin procesar, hay docenas de formas para que los datos sin procesar se filtren (cada proyecto adicional agrega la posibilidad de que alguien filtre datos o provoque una violación de datos inadvertidamente). Si solo tienen acceso a datos anonimizados, los riesgos siguen ahí, pero el daño se minimiza.

Además, a menudo los datos agrupados o agrupados son más útiles. Por ejemplo, en el aprendizaje automático, el “número de teléfono” es bastante inútil como característica, ya que sería exclusivo de un usuario. Pero podría usarse algo como “país de número de teléfono” o “estado de número de teléfono”, y permitir que un modelo se generalice. Entonces, a veces obtienes dos pájaros de un tiro haciendo lo correcto y protegiendo la privacidad.

La anonimización de datos está originalmente destinada a proteger la privacidad. Hay varios métodos para usarlo. Sin embargo, la violación de datos puede ocurrir en entornos no en línea, como cuando se extrae un informe sobre los clientes.

  1. Autenticación: si está registrando un usuario y almacenando su información personal como nombre, dirección, etc., todo lo que necesita es una identificación o número de teléfono para autenticar a la persona. La otra información generalmente no es muy relevante para la mayoría de los sitios web en línea.
  2. Ética de la máquina: al usar información personal como género, raza, etc., los algoritmos de aprendizaje automático pueden desarrollar un sesgo social existente si alguno de ellos se usa como una característica para determinar si la persona es criminal o si el trabajo bien pagado debería mostrarse a la persona dada El género y la raza tienen sentido para los sitios web de citas.
  3. Anonimización de la ubicación: los sitios web revelan inadvertidamente la ubicación al tiempo que permiten que las personas carguen fotos en las redes sociales con una ubicación incrustada. La recopilación de ubicaciones basadas en fotos es irrelevante para muchos sitios web a menos que se trate de aplicaciones / sitios web basados ​​en fotografías como Instagram, etc.

Como puede imaginar, los conjuntos de datos que incluyen información confidencial son probablemente personas de las que se trata esta información y no quieren que se les adjunten sus nombres. Piense en los datos médicos, por ejemplo. Para el individuo bastante sano, esto podría no ser un gran problema. De lo contrario, este conjunto de datos podría servir como una herramienta para la discriminación contra personas con afecciones médicas.

Esto va para cualquiera, de verdad. Revelar la identidad de las personas con sus datos los coloca en una posición vulnerable para que esos datos se usen en su contra. Un ejemplo bastante famoso es: Ashley Madison Data Breach

En la mayoría de los casos, el anonimato de datos proporcionó una capa de privacidad.

  1. en entornos de atención médica, HIPAA exige que se protejan 18 identificadores. Cuando planea compartir la fecha con cualquiera de sus socios para solucionar problemas o crear una prueba de concepto, anonimiza estos campos. Por ejemplo, en lugar de la fecha de nacimiento, proporciona un rango de edad de 30 a 40 años.
  2. Si está creando un POC y recibe datos reales del cliente y no desea que se muestre la información de identificación personal, anonimice el número de seguro social con números ficticios.

Cualquier dato que pueda violar la privacidad, como los requeridos por las regulaciones de salud (HIPAA) y los datos que pueden causar una causalidad o correlación sesgada, es decir, si ciertos valores de datos no se ofuscan.

Solo por ejemplo, si está recopilando datos para perfilar una enfermedad médica en particular para un determinado subconjunto de la población (a menos que su investigación se relacione geográficamente y encuentre una causa ambiental específica), es posible que deba anonimizar el código postal o la información geográfica, etc.

  • Anonimizar registros médicos para que pueda discutir y estudiar el progreso de una enfermedad sin violar su privacidad.
  • Permitir que las personas vean datos promedio del censo de su vecindario sin decirle al mundo que la persona que vive en esa casa gana X dólares por año, usa asistencia social o 2 horas de viaje.