Cómo desduplicar elementos de feed no idénticos mediante el aprendizaje automático

Bueno, el primer paso sería definir una función de similitud adecuada, y después de hacer esto, su problema está resuelto. Para los documentos, las buenas funciones de similitud son el coeficiente de Jaccard y la similitud de coseno.

Por lo tanto, toma un elemento [math] x [/ math] y por cada otro elemento [math] y [/ math] en su conjunto de datos calcula [math] \ text {similarity} (x, y) [/ math] y luego filtrar aquellos [math] y [/ math] cuyas similitudes con [math] x [/ math] son ​​de cierto umbral.

Sin embargo, si tiene un conjunto de datos grande-grande, no es factible comparar cada objeto con cada uno, por lo que necesita algunas formas más inteligentes de prefiltrar “candidatos duplicados”. Puede hacer esto con el hashing sensible a la localidad: la idea es utilizar una función hash especial que coloque los elementos que probablemente sean similares en los mismos cubos.

Puede encontrar una buena introducción a LSH en el libro “Minería de conjuntos de datos masivos” de Jure Leskovec, Anand Rajaraman y Jeff Ullman. Hay familias de funciones hash sensibles a la localidad para Jaccard (se llama hash Min-wise) y Cosine (proyecciones binarias aleatorias). Para el coseno, puede encontrar útil esta página en stackoverflow.com.

More Interesting

¿Podría la inteligencia artificial conquistar el mundo? ¿Si es así, cómo? O si no, ¿por qué no?

¿Cómo agrega la función de activación la no linealidad a las redes neuronales?

¿Cómo cambiarán las relaciones con el surgimiento de robots e IA con capacidad sexual?

Si hay un algoritmo o teoría sobre cómo crear una IA fuerte, ¿se hará pública dicha información como otra investigación académica o se mantendrá en secreto para beneficiar a los involucrados?

¿Puedes citar un ejemplo de un concepto o principio intelectual que no podemos entender completamente y que solo los seres con mayor inteligencia pueden?

¿En qué orden debo aprender el aprendizaje automático, el aprendizaje profundo, el procesamiento del lenguaje natural y la inteligencia artificial?

¿Las iniciativas de investigación de IA de código abierto acelerarán la interrupción de los empleos y la economía a un ritmo inmanejable?

¿Puede la inteligencia artificial crear otra inteligencia artificial más inteligente que todas las inteligencias artificiales?

Como intuitivamente tiene sentido decir que el verdadero potencial de la IA radica en desbloquear nuestra comprensión del cerebro humano, ¿dónde se encuentra la neurociencia?

¿Cómo se puede aplicar la IA al diseño de chips de computadora?

¿Cuál es la explicación simple del algoritmo M5P (árboles modelo M5) en aprendizaje automático / minería de datos?

¿Es peligroso un robot inteligente?

¿Cuánto tiempo pasará antes de que podamos reemplazar a los conserjes con máquinas?

¿Por qué los liberales piensan que saben lo que es mejor para los empobrecidos, mejor que los pobres?

Cómo comenzar con el aprendizaje automático