Cómo anonimizar datos de búsqueda de usuarios con machine learning

¿Está buscando específicamente el uso del aprendizaje automático para la desanonimización del usuario o está buscando el uso del aprendizaje automático para varias infracciones de seguridad?

Deanonymizing datos de búsqueda de usuario
En estos días, los resultados de búsqueda de los usuarios son altamente personalizados (con el uso cada vez mayor de usuarios móviles, la tendencia de personalización ha aumentado aún más). Gracias a eso, con bastante facilidad, al menos se puede identificar la ubicación de los usuarios a partir de los resultados de búsqueda. Por ejemplo, si busco restaurantes en mi dispositivo móvil (generalmente con GPS activado), los resultados de la búsqueda arrojarán restaurantes cerca de mi ubicación. Ahora, si tiene acceso a los resultados, descubrir la ciudad del usuario es trivial (y para los resultados de búsqueda móvil como el de este ejemplo, los resultados generalmente están ordenados por distancia), lo que significa que uno puede realmente señalar la dirección del usuario de los resultados de búsqueda. Si realiza un seguimiento de los resultados de búsqueda durante un período de tiempo y señala la ubicación, puede obtener el uso de ruta normal del usuario. Al rastrear las direcciones de los puntos finales de estas rutas, uno puede obtener la ubicación del hogar y el trabajo del usuario. Incluso puede identificar el nombre real del lugar de trabajo y, finalmente, el nombre del usuario mismo, si su dirección aparece públicamente en Internet (o utilizando datos del censo).

Por supuesto, todo esto es más fácil decirlo que hacerlo. Pero estos no están en el ámbito de la imposibilidad. Tenga en cuenta que realmente no necesita un aprendizaje automático avanzado para hacer nada de lo anterior.

Algunos otros usos sofisticados de aprendizaje automático sobre seguridad:

  1. Cada vez que un código de shell llega a una máquina, uno de los filtros comunes para detectar si el fragmento de texto es un código de shell o no es para ver si “se parece” al idioma inglés (o nativo) o no. Bueno, aquí hay un documento que muestra cómo combinar código shell y modelos de lenguaje natural para crear código shell que “se parezca” al texto en inglés [1]
  2. Hace algunos años, netflix lanzó un conjunto de datos de clasificaciones de películas de usuarios donde los usuarios fueron anonimizados. En 2007, se publicó un documento [2] que mostraba que usando IMDB, uno puede desanonimizar a varios usuarios del conjunto de datos de netflix y descubrir otra información sobre estos usuarios. Esto llevó a la eventual cancelación del desafío 2 de Netflix, la secuela del desafío original de Netflix.

[1] http://www.cs.jhu.edu/~sam/ccs24…
[2] http://arxiv.org/abs/cs/0610105

Puede desanimar los datos mediante el uso de alguna información secundaria. Por ejemplo, si sus datos son datos de movilidad personal anónimos, para volver a identificar a los usuarios, puede usar datos de redes sociales georreferenciados.

Aquí se puede encontrar algún ejemplo de esto: Reidentificación de conjuntos de datos anónimos de CDR utilizando datos de redes sociales

Del mismo modo, puede pensar en un conjunto de datos secundarios que podría usarse para anonimizar los datos de búsqueda de los usuarios.