Bueno, el primer paso sería definir una función de similitud adecuada, y después de hacer esto, su problema está resuelto. Para los documentos, las buenas funciones de similitud son el coeficiente de Jaccard y la similitud de coseno.
Por lo tanto, toma un elemento [math] x [/ math] y por cada otro elemento [math] y [/ math] en su conjunto de datos calcula [math] \ text {similarity} (x, y) [/ math] y luego filtrar aquellos [math] y [/ math] cuyas similitudes con [math] x [/ math] son de cierto umbral.
Sin embargo, si tiene un conjunto de datos grande-grande, no es factible comparar cada objeto con cada uno, por lo que necesita algunas formas más inteligentes de prefiltrar “candidatos duplicados”. Puede hacer esto con el hashing sensible a la localidad: la idea es utilizar una función hash especial que coloque los elementos que probablemente sean similares en los mismos cubos.
- Sinestesia: ¿Existe algún producto que pueda simular una percepción sinestésica utilizando algoritmos de IA?
- Inteligencia artificial: ¿Qué significa utilizar 'métodos de aprendizaje métrico además del aprendizaje profundo'?
- ¿Por qué los países no pueden pelear guerras usando robots en lugar de humanos?
- ¿Cómo puede ser útil la IA para responder al problema "difícil" de la conciencia?
- Cómo hacerme inteligente
Puede encontrar una buena introducción a LSH en el libro “Minería de conjuntos de datos masivos” de Jure Leskovec, Anand Rajaraman y Jeff Ullman. Hay familias de funciones hash sensibles a la localidad para Jaccard (se llama hash Min-wise) y Cosine (proyecciones binarias aleatorias). Para el coseno, puede encontrar útil esta página en stackoverflow.com.