En las medias K-medias normales, cada punto se asigna a un solo centroide, los puntos asignados al mismo centroide pertenecen al mismo grupo.
Cada centroide es el promedio de todos los puntos que pertenecen a su grupo, por lo que los centroides pueden tratarse como puntos de datos en el mismo espacio que el conjunto de datos que estamos utilizando.
Si estamos agrupando caras, los centroides se verán como caras, porque si promedias varias caras obtienes otra (!). Si estamos agrupando el conjunto de datos MNIST, los centroides mostrarán el promedio de todas las diferentes variantes para un dígito.
- ¿Cuáles son algunos desarrollos interesantes pero pasados por alto en la investigación de ML?
- ¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?
- ¿Por qué es importante la ciencia de datos?
- ¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?
- ¿Qué es el etiquetado gráfico?
Ejemplo: 64 centroides después de agrupar el conjunto de datos de caras, cada cara es un centroide y parece una cara porque es el resultado de promediar las caras en su grupo.
Kmeans es una forma de cuantización vectorial, puede representar cada punto de datos como su centroide más cercano, de modo que le da una compresión con pérdidas del conjunto de datos al número de centroides que ha utilizado para K-medias.
Este truco se usa en varios algoritmos para acelerar el cálculo, primero aplica K-means y luego aplica algún algoritmo a los centroides y extiende los resultados a todos los puntos asociados con ese centroide.
También puede usar K-medias para la reducción de dimensionalidad que representa cada punto en k dimensiones usando la distancia desde el punto a cada centroide. A veces, las “características” generadas por K-Means harán que un clasificador funcione mejor que con los puntos sin procesar.
K-Means también le proporciona una prueba de voronoi de su conjunto de datos, cada centroide repite una región de puntos que están más cerca de ese centroide que de cualquier otro.
Esto puede ser útil de varias maneras. Por ejemplo, si se está acercando al problema de los vecinos cercanos, puede comparar el punto de consulta con los k-centroides y luego con los puntos del clúster para el centroide de los armarios, esto evita tener que comparar la consulta con todos los puntos del conjunto de datos, de Por supuesto, si el punto de consulta está cerca del borde entre dos regiones, el resultado puede faltar algunos vecinos cercanos y es por eso que es una aproximación.
Por lo tanto, K-Means puede brindarle un resultado de agrupamiento, reducción de dimensionalidad, compresión de datos con pérdida, aproximación NN o KNN y una forma de encontrar puntos centrales para acelerar cualquier algoritmo. ¡Todo por el mismo precio!