Cuando los datos se dividen en hash, todavía están relacionados con los valores de entrada: una función hash toma la entrada original y la asigna a otro valor. Esto se hace con bastante frecuencia para anonimizar los datos. Mientras no pueda descubrir la función hash que se utilizó, no podrá revertir los datos a su forma original.
El principal desafío aquí es que, sin saber cómo se cifraron los datos, es difícil saber cuánto se ve afectado por las colisiones (es decir, cuando 2 valores de entrada diferentes se asignan al mismo valor hash). Si hay muchas colisiones, esto se traducirá efectivamente en un tipo de pérdida de información en sus datos de entrenamiento, más o menos (¡pero no explícitamente como!) Métodos de reducción de dimensionalidad.
En la práctica, la respuesta a la segunda parte de su pregunta: “¿Cómo puedo construir un clasificador binario con datos hash?” es simplemente entrenar a un clasificador binario como si no supiera que los datos fueron cifrados / que creía que los datos que recibió eran datos sin procesar, y ver cómo funcionan.
- ¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?
- ¿Cuál es la parte más lenta del método SVM?
- ¿Es mejor utilizar algoritmos basados en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?
- ¿Por qué funciona la función de costo de regresión logística?
- ¿Existe un puntaje general de 'utilidad' para el rendimiento de recuperación de información?