¿Cuándo debo coseno similitud? ¿Se puede usar para la agrupación?

Al responder esto, ¿asumo que preguntaste cuándo usar la similitud de coseno?

Primero déjenme aclarar qué es la similitud de coseno. Básicamente, la similitud del coseno, en palabras simples, es una medida que calcula el ángulo del coseno entre los dos vectores (vectores obtenidos de un documento de texto usando el método tf-idf o cualquier otro método).

Los puntajes del coseno van desde [-1, +1]. Una puntuación de 1 indica que los dos documentos son iguales, mientras que -1 indica que los dos documentos son totalmente diferentes.

La similitud de coseno se utilizará en lugares donde desea predecir la orientación de un documento con respecto al otro. La orientación aquí significa si su documento es similar a un documento de consulta o totalmente diferente del documento de consulta.

Pongamos un ejemplo:

Si tomamos dos documentos de texto

Doc1 = compró un caramelo en una tienda.

Doc2 = qué buen día.

Query_doc = Al niño le encanta el caramelo.

Si encontramos cosine_sim (Doc1, query_doc) obtendremos una puntuación> 0 mientras que si calculamos

cosine_sim (Doc2, query_doc) obtendremos una puntuación <0 o incluso -1 que le ayudará a predecir que doc1 es similar a query_doc.

Ahora la respuesta a la segunda parte
Sí, puedes usarlo para agrupar.
La agrupación consiste básicamente en agrupar documentos con algún tipo de similitud. Si usa una matriz de puntaje de coseno entre cada documento, puede realizar la agrupación.

More Interesting

¿Qué significa la siguiente imagen de un gráfico en Theano?

¿Cómo funciona Google Deep Dream?

¿Prediciendo compras (en comercio electrónico) a través de modelos estadísticos o de aprendizaje automático?

¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?

¿Por qué algunas personas confunden las estadísticas con el aprendizaje automático?

¿Podemos usar SGD para entrenar el modelo de mezcla, como GMM y movMF?

¿Qué tan rápido es Theano en comparación con otras implementaciones de DBN? ¿Cómo se compara con otras implementaciones de GPU (potencialmente no públicas) para la velocidad de entrenamiento en grandes conjuntos de datos?

Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?

¿Cuántos temas de matemáticas me mejorarán en el aprendizaje automático?

¿Cómo debo entender el marco experto en aprendizaje en línea?

¿Qué opina del Proyecto Microsoft Kensci que utiliza el aprendizaje automático en la gestión predictiva de riesgos de salud?

¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?

Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

Redes neuronales artificiales: ¿Hebbian Learning rige el trabajo en problemas de aprendizaje automático o es solo un enfoque teórico?