¿Se puede extraer información significativa de datos hash para el aprendizaje automático?

Cuando los datos se dividen en hash, todavía están relacionados con los valores de entrada: una función hash toma la entrada original y la asigna a otro valor. Esto se hace con bastante frecuencia para anonimizar los datos. Mientras no pueda descubrir la función hash que se utilizó, no podrá revertir los datos a su forma original.

El principal desafío aquí es que, sin saber cómo se cifraron los datos, es difícil saber cuánto se ve afectado por las colisiones (es decir, cuando 2 valores de entrada diferentes se asignan al mismo valor hash). Si hay muchas colisiones, esto se traducirá efectivamente en un tipo de pérdida de información en sus datos de entrenamiento, más o menos (¡pero no explícitamente como!) Métodos de reducción de dimensionalidad.

En la práctica, la respuesta a la segunda parte de su pregunta: “¿Cómo puedo construir un clasificador binario con datos hash?” es simplemente entrenar a un clasificador binario como si no supiera que los datos fueron cifrados / que creía que los datos que recibió eran datos sin procesar, y ver cómo funcionan.

Related Content

¿Qué es el remuestreo en el aprendizaje automático?

¿Dónde puedo encontrar datos de rastreo GPS del mundo real?

¿Un descenso de gradiente funciona en Big Data?

¿Cuál es la relación entre relevancia y aprendizaje automático?

¿Cuál es la diferencia entre el análisis factorial y las técnicas de selección de características, como el análisis de componentes principales y la asignación de dirichlet latente?

¿Cuáles son algunos ejemplos de inferencia?

¿Qué significa el impulso en el descenso de gradiente estocástico?

Yo creo que tu puedes. Si aprovecha la misma idea, como el hashing de características, que traduce sus características dispersas en una matriz / vector a través de una función hash y esencialmente en un conjunto de índices hash que se pueden usar con varios algoritmos como XGboost, glmnet para modelar.

Neal Lathia

More Interesting

¿Cómo entrenamos redes neuronales en datos numéricos?

¿Cuál es el proceso de reconocimiento de voz (en resumen)?

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

En la clasificación binaria, ¿es una buena práctica siempre sobre / submuestrear su conjunto de datos para tener un número idéntico de muestras de las dos clases?

¿Qué estrategia usaste para resolver el juego 2048? ¿Por qué?

¿Hay nueva información sobre el tema X o la gente sigue copiando y pegando?

¿Cómo se hace el cambio de C ++ a Python? Me siento más cómodo con C ++ y lo he estado usando para hacer la mayor parte de mi programación; Me parece que lleva mucho tiempo y Python hace las cosas rápidamente. ¿Cuál es la mejor manera de hacer el cambio?

¿Existe un sistema de IA más eficiente que el Watson de IBM?

¿Qué es el análisis de componentes principales en términos de super laicos?

¿Cuáles son los mejores libros de aprendizaje automático para principiantes?

¿Qué es el algoritmo de cambio medio?

¿Cómo podemos hacer csv o dataset textual a partir de imágenes?

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

Cómo implementar el descenso de gradiente de mini lotes en una red neuronal

Web Analytics