¿Todos los algoritmos de agrupamiento no están supervisados?

El aprendizaje no supervisado significa aprender la estructura oculta de los datos en ausencia de ‘etiquetas’ o supervisión. Es decir, dadas muchas muestras de automóviles y vacas (sin decirle cuáles son en realidad), puede aprender estructuras sobre ellos. Dado que la verdad básica (o las etiquetas) no están disponibles; Es difícil evaluar el desempeño de tales métodos. Además, según diferentes criterios, las estructuras ocultas que uno puede aprender pueden ser diferentes. Por ejemplo, si el criterio es el color ‘negro’, entonces todos los autos negros y las vacas negras se pueden agrupar juntos que el resto de los autos y las vacas.

Todo esto parece trivial para los humanos, pero no tanto para los algoritmos. En el momento en que eliminamos las ‘etiquetas’ de los datos, resulta difícil tener sentido. Existen varios enfoques para el aprendizaje no supervisado [1]:

  • Agrupamiento
  • Clasificación de una clase / detección de anomalías
  • Aprendizaje de métodos variables latentes, etc.

Para responder a su pregunta, SÍ, por definición, todos los métodos de agrupación no están supervisados.

Otras lecturas

La respuesta de Shehroz Khan a ¿Cuál es la diferencia entre los algoritmos de aprendizaje supervisados ​​y no supervisados?

Notas al pie

[1] Aprendizaje no supervisado – Wikipedia

Uno podría pensar que todos los algoritmos de clúster están supervisados, es decir, buscan de forma autónoma elementos similares en el conjunto de datos, basándose en métricas de distancia como coseno, euclidiana, manhattan, …

También podría suponer que la agrupación supervisada no es más que una simple tarea de clasificación en la que se asignan nuevos registros a clases / etiquetas predefinidas.

Sin embargo, hay algunas investigaciones sobre agrupación supervisada por ahí. En realidad, tendría sentido incluir una variable dependiente para mejorar el rendimiento de la agrupación. En muchos de mis casos de uso, los grupos no han sido muy significativos.

Eick y col. Introducir cuatro nuevos algoritmos. Sin embargo, no funcionan tan bien. [1] Finley y Joachims [2] también presentan un documento sobre la agrupación supervisada con máquinas de vectores de soporte.

Una simple búsqueda en Google Académico podría ayudarlo a encontrar aún más 🙂

Notas al pie

[1] https://www.researchgate.net/pub

[2] https://www.researchgate.net/pub