¿Está buscando específicamente el uso del aprendizaje automático para la desanonimización del usuario o está buscando el uso del aprendizaje automático para varias infracciones de seguridad?
Deanonymizing datos de búsqueda de usuario
En estos días, los resultados de búsqueda de los usuarios son altamente personalizados (con el uso cada vez mayor de usuarios móviles, la tendencia de personalización ha aumentado aún más). Gracias a eso, con bastante facilidad, al menos se puede identificar la ubicación de los usuarios a partir de los resultados de búsqueda. Por ejemplo, si busco restaurantes en mi dispositivo móvil (generalmente con GPS activado), los resultados de la búsqueda arrojarán restaurantes cerca de mi ubicación. Ahora, si tiene acceso a los resultados, descubrir la ciudad del usuario es trivial (y para los resultados de búsqueda móvil como el de este ejemplo, los resultados generalmente están ordenados por distancia), lo que significa que uno puede realmente señalar la dirección del usuario de los resultados de búsqueda. Si realiza un seguimiento de los resultados de búsqueda durante un período de tiempo y señala la ubicación, puede obtener el uso de ruta normal del usuario. Al rastrear las direcciones de los puntos finales de estas rutas, uno puede obtener la ubicación del hogar y el trabajo del usuario. Incluso puede identificar el nombre real del lugar de trabajo y, finalmente, el nombre del usuario mismo, si su dirección aparece públicamente en Internet (o utilizando datos del censo).
Por supuesto, todo esto es más fácil decirlo que hacerlo. Pero estos no están en el ámbito de la imposibilidad. Tenga en cuenta que realmente no necesita un aprendizaje automático avanzado para hacer nada de lo anterior.
- ¿Qué herramientas e idiomas necesito saber para convertirme en un científico de datos en el futuro?
- ¿Cómo han fomentado los grandes datos la ciencia? ¿Existen ejemplos en los que el análisis de big data ha llevado a una mejora significativa en cualquier campo científico que no se podría hacer mediante el análisis tradicional?
- ¿Cómo podemos estar seguros de que podemos confiar en los científicos? ¿Cómo sabemos realmente que los científicos no son los clérigos modernos? Parece que la ciencia toma tanto la fe como la religión.
- ¿Quién cifra los datos?
- ¿Qué lenguaje de programación de tipo estático proporciona un entorno fuertemente integrado para la ciencia de datos?
Algunos otros usos sofisticados de aprendizaje automático sobre seguridad:
- Cada vez que un código de shell llega a una máquina, uno de los filtros comunes para detectar si el fragmento de texto es un código de shell o no es para ver si “se parece” al idioma inglés (o nativo) o no. Bueno, aquí hay un documento que muestra cómo combinar código shell y modelos de lenguaje natural para crear código shell que “se parezca” al texto en inglés [1]
- Hace algunos años, netflix lanzó un conjunto de datos de clasificaciones de películas de usuarios donde los usuarios fueron anonimizados. En 2007, se publicó un documento [2] que mostraba que usando IMDB, uno puede desanonimizar a varios usuarios del conjunto de datos de netflix y descubrir otra información sobre estos usuarios. Esto llevó a la eventual cancelación del desafío 2 de Netflix, la secuela del desafío original de Netflix.
[1] http://www.cs.jhu.edu/~sam/ccs24…
[2] http://arxiv.org/abs/cs/0610105