¿Se puede extraer información significativa de datos hash para el aprendizaje automático?

Cuando los datos se dividen en hash, todavía están relacionados con los valores de entrada: una función hash toma la entrada original y la asigna a otro valor. Esto se hace con bastante frecuencia para anonimizar los datos. Mientras no pueda descubrir la función hash que se utilizó, no podrá revertir los datos a su forma original.

El principal desafío aquí es que, sin saber cómo se cifraron los datos, es difícil saber cuánto se ve afectado por las colisiones (es decir, cuando 2 valores de entrada diferentes se asignan al mismo valor hash). Si hay muchas colisiones, esto se traducirá efectivamente en un tipo de pérdida de información en sus datos de entrenamiento, más o menos (¡pero no explícitamente como!) Métodos de reducción de dimensionalidad.

En la práctica, la respuesta a la segunda parte de su pregunta: “¿Cómo puedo construir un clasificador binario con datos hash?” es simplemente entrenar a un clasificador binario como si no supiera que los datos fueron cifrados / que creía que los datos que recibió eran datos sin procesar, y ver cómo funcionan.

Yo creo que tu puedes. Si aprovecha la misma idea, como el hashing de características, que traduce sus características dispersas en una matriz / vector a través de una función hash y esencialmente en un conjunto de índices hash que se pueden usar con varios algoritmos como XGboost, glmnet para modelar.