¿Cuáles son algunos buenos recursos para conceptos sobre la identificación de similitudes entre documentos?

Veo dos enfoques diferentes que podrías tomar:

1. Aprendizaje no supervisado: agrupamiento en el espacio del documento:

Si no tiene ningún dato etiquetado, entonces debe usar un modelo como Indización Semántica Latente o Asignación de Dirichlet Latente [3]. Lea esta increíble respuesta para más información:

¿Cuál es una buena explicación de la asignación de Dirichlet latente?

El resultado de este proceso son documentos agrupados en torno a temas y contenidos similares. Estos algoritmos lo ayudarán a “descubrir” temas en sus documentos, y estos temas serían una forma de similitud.

2. Aprendizaje supervisado: enfoque de filtrado bayesiano:

Si tiene un conjunto de documentos etiquetados (estas etiquetas pueden ser cualquier cosa), intente tratar esto como un problema de filtrado de SPAM [4] y capacite a un clasificador Naive Bayes utilizando funciones simples de bolsa de palabras [6] , o tal vez incluso frases (características de n-gramas [5]). Dependiendo de las características que elija, puede encontrar algunos resultados interesantes. Para más información, lea el siguiente enlace:

¿Cómo funcionan los algoritmos bayesianos para la identificación de spam?

También podría probar una combinación de ambos enfoques (esto es lo que haría).

En cuanto a los recursos, usaría Python: use una combinación del Kit de herramientas de procesamiento de lenguaje natural (NLTK) [7] para la extracción de características y luego Scipy [8], Numpy [9] y otros paquetes de código abierto para el modelado. Si no sabe cómo funciona Naive Bayes, codifíquelo usted mismo. Es bastante simple y volverá a aprender una teoría de probabilidad simple mientras lo hace.

Si desea ser realmente ambicioso y moverse más allá de los simples Naive Bayes y probar modelos más complejos, consulte estos documentos [10] [11]

Estos documentos destacan una serie de algoritmos diferentes (Máquinas de vectores de soporte [13], Máxima entropía [12], Filtrado bayesiano, etc.) y algunas características realmente geniales que puede usar para clasificar el contenido semántico de un documento. Están utilizando críticas de películas IMDB [14], pero podría fácilmente hacer la transición de este trabajo a cuerpos de texto más grandes como documentos, libros, etc. Una vez que obtenga la semántica, puede agrupar los documentos por similitud (creo).

Lo bueno de usar SVM es que funcionan extremadamente bien en un espacio dimensional muy alto, que es típico de las características que necesitará extraer para resolver su problema. Solo necesita asegurarse de tener un tamaño de conjunto de entrenamiento grande (proporcional al tamaño de sus características) para evitar la maldición de la dimensionalidad [1]

[1] http://en.wikipedia.org/wiki/Cur…
[2] http://en.wikipedia.org/wiki/Lat…
[3] http://en.wikipedia.org/wiki/Lat…
[4] http://en.wikipedia.org/wiki/Bay…
[5] http://en.wikipedia.org/wiki/N-gram
[6] http://en.wikipedia.org/wiki/Bag…
[7] http://www.nltk.org/
[8] http://www.scipy.org/
[9] http://numpy.scipy.org/
[10] http://www.cs.cornell.edu/home/l…
[11] http://www.cs.cornell.edu/People…
[12] http://en.wikipedia.org/wiki/Max…
[13] http://en.wikipedia.org/wiki/Sup…
[14] http://en.wikipedia.org/wiki/Int…

Aquí hay un excelente artículo sobre recuperación semántica de documentos (utilizando similitudes).

Este artículo describe la forma más actual de utilizar el aprendizaje automático para acceder a información médica compleja que tiene numerosas coincidencias, etc.

Escrito por el Prof. Dr. Ullrich Reimer en la Revista Internacional de Gestión del Conocimiento.

http: //www.irma-international.or

Aquí hay algunos puntos de partida. La teoría es bastante directa, aunque no la he practicado.

http://en.wikipedia.org/wiki/Min
http://en.wikipedia.org/wiki/Loc

More Interesting

Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?

¿Cuán eficientes pueden ser los datos de biomarcadores para predecir el deterioro clínico?

¿Cuál es la diferencia entre el aprendizaje de refuerzo profundo y el aprendizaje de refuerzo?

¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?

¿Cuál es una buena manera de entender las dos fórmulas con respecto a este modelo gráfico de probabilidad dado?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Qué hace la diferencia entre un algoritmo normal y un algoritmo de aprendizaje automático?

¿Cuál es la mejor manera de distribuir el descenso de gradiente?

¿Es efectivo el entrenamiento de confrontación contra los ejemplos de confrontación en general?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

¿Es útil el aprendizaje automático en el campo de la ingeniería eléctrica?

Cómo recopilar datos para problemas de la vida real mientras se entrena un modelo de aprendizaje automático

¿Cuál es el mejor enfoque híbrido para construir un sistema de recomendación para datos de música?

¿Cuáles son algunos buenos métodos para el procesamiento previo de datos en el aprendizaje automático?

¿Puedo usar videos de YouTube para hacer aprendizaje automático comercial?