¿Cuáles son las ventajas de la agrupación de K-Means?

Quiero hablar sobre la suposición, los contras y los pros de Kmean para dar una idea completa.

suposición:

1) asumir un tamaño de clúster equilibrado dentro del conjunto de datos;

2) suponga que la distribución conjunta de características dentro de cada grupo es esférica: esto significa que las características dentro de un grupo tienen la misma varianza, y también las características son independientes entre sí;

3) los grupos tienen una densidad similar;

contras:

1) efecto uniforme: a menudo producen grupos con un tamaño relativamente uniforme, incluso si los datos de entrada tienen un tamaño de grupo diferente;

2) suposición esférica difícil de cumplir: la correlación entre las características la rompe, pondría pesos adicionales en las características correlacionadas (debería tomar medidas dependiendo de los problemas); no puede encontrar grupos no convexos o grupos con formas inusuales;

3) diferentes densidades: puede funcionar mal con grupos con diferentes densidades pero de forma esférica;

4) Valor de K no conocido: ¿cómo resolver K? 1) para un rango pequeño de valor K, digamos 2-10, para cada valor K ejecutado muchas veces (20-100 veces), tome el resultado de agrupamiento con el valor J más bajo entre todos los valores K; 2) usando el método Elbow para decidir el valor K; 3) BPA; 4) decidir los flujos descendentes de K: decidir por los propósitos / objetivos de los proyectos

5) sensible a los valores atípicos;

6) sensible a los puntos iniciales y óptimo local, y no existe una solución única para un determinado valor de K: por lo tanto, ejecute K media para un valor de K muchas veces (20-100 veces), luego elija los resultados con J más bajo;

pros:

1) prácticamente funcionan bien, incluso algunos supuestos se rompen;

2) simple, fácil de implementar;

3) fácil de interpretar los resultados de agrupamiento;

4) rápido y eficiente en términos de costo computacional, típicamente O (K * n * d);

K Means es un algoritmo de agrupación en Aprendizaje automático sin supervisión. Se utiliza para dividir un grupo de puntos de datos en grupos donde los puntos dentro de un grupo son similares entre sí.

¿QUÉ ES CLUSTERING K-SIGNIFICA?

K-Means realiza la división de los objetos en grupos que son “similares” entre ellos y son “diferentes” a los objetos que pertenecen a otro grupo.

DECLARACIÓN DEL PROBLEMA : considere un conjunto de datos de muestra de 10 puntos aleatorios

TAREA: Resuelva el problema usando K-Means y agrupe estos puntos en 2 grupos

PASO 1:

  • Inicialmente, dos centroides se asignan aleatoriamente (azul y amarillo).

PASO 2:

  • Distancia euclidiana para averiguar qué centroide está más cerca de cada punto de datos y los puntos de datos se asignan a los centroides correspondientes.

PASO 3:

  • Vuelva a colocar los dos centroides para la optimización.

ETAPA 4:

  • El proceso se repite iterativamente hasta que nuestros centroides se vuelvan estáticos, es decir, los centroides ahora son los centros de los dos grupos que estamos tratando de crear.

RESULTADO:

Ahora tenemos dos grupos de azul y amarillo donde todos los puntos en azul son similares entre sí y los puntos amarillos son similares entre sí y hay una diferencia significativa entre los dos grupos.

¿CUÁLES SON LAS VENTAJAS?

Las siguientes son las ventajas de usar K Means Clustering

  1. Fácil de implementar
  2. Con una gran cantidad de variables, K-Means puede ser computacionalmente más rápido que el agrupamiento jerárquico (si K es pequeño).
  3. K-Means puede producir agrupaciones más altas que la agrupación jerárquica
  4. Una instancia puede cambiar el clúster (moverse a otro clúster) cuando se vuelven a calcular los centroides

Para saber más sobre K-MEANS CLUSTERING, vea este video:

¡Espero que esto te ayude a entender!

Si está interesado en obtener más información sobre el aprendizaje automático y obtener un conocimiento profundo, consulte nuestra Capacitación de certificación de aprendizaje automático de Simplilearn .

K Means es un algoritmo de agrupación en Aprendizaje automático sin supervisión. Se utiliza para dividir un grupo de puntos de datos en grupos donde los puntos dentro de un grupo son similares entre sí.

K-Means realiza la división de los objetos en grupos que son “similares” entre ellos y son “diferentes” a los objetos que pertenecen a otro grupo.

Planteamiento del problema : considere un conjunto de datos de muestra de 10 puntos aleatorios

Tarea: Resuelva el problema usando K-Means y agrupe estos puntos en 2 grupos

Paso 1:

  • Inicialmente, dos centroides se asignan aleatoriamente (azul y amarillo).

Paso 2:

  • Distancia euclidiana para averiguar qué centroide está más cerca de cada punto de datos y los puntos de datos se asignan a los centroides correspondientes.

Paso 3:

  • Vuelva a colocar los dos centroides para la optimización.

Etapa 4:

  • El proceso se repite iterativamente hasta que nuestros centroides se vuelvan estáticos, es decir, los centroides ahora son los centros de los dos grupos que estamos tratando de crear.

Resultado

Ahora tenemos dos grupos de azul y amarillo donde todos los puntos en azul son similares entre sí y los puntos amarillos son similares entre sí y hay una diferencia significativa entre los dos grupos.

Ventajas de K significa agrupamiento

Las siguientes son las ventajas de usar K Means Clustering

  1. Fácil de implementar
  2. Con una gran cantidad de variables, K-Means puede ser computacionalmente más rápido que el agrupamiento jerárquico (si K es pequeño).
  3. K-Means puede producir agrupaciones más altas que la agrupación jerárquica
  4. Una instancia puede cambiar el clúster (moverse a otro clúster) cuando se vuelven a calcular los centroides

Para saber más sobre K Means Clustering, mira este video:

¡Espero que esto te ayude a entender!

Si está interesado en obtener más información sobre el aprendizaje automático y obtener un conocimiento profundo, consulte nuestra Capacitación de certificación de aprendizaje automático de Simplilearn .

Hola amigos,

La agrupación en general está respaldada por buenos conceptos matemáticos. Una buena comprensión matemática ayudará a optimizar y ajustar su salida en lugar de simplemente alimentar los datos para modelar y consumir la salida que generalmente ocurre en otros algoritmos.

A continuación se muestra el enlace de la agrupación de un enfoque matemático.

Guía para principiantes del análisis estadístico de conglomerados en detalle, parte 1

Espero que esto ayude.

Saludos,

Sajid

Aprendizaje colaborativo

  • Más rápido, porque la complejidad del orden de tiempo es lineal con el número de datos
  • Funciona muy bien si los grupos son esféricos

Lea para obtener más información a continuación:

¿Por qué usamos k-means en lugar de otros algoritmos?

Ventajas y desventajas del agrupamiento de K-medias

k-means se convierte en una gran solución para el pre-agrupamiento, reduciendo el espacio en sub-espacios disjuntos más pequeños donde se pueden aplicar otros algoritmos de agrupamiento.

More Interesting

¿Qué método se ejecuta más rápido para una matriz con todas las claves idénticas, tipo burbuja o tipo inserción?

Cómo resolver esta relación de recurrencia usando el método de sustitución

¿Qué problemas algorítmicos abiertos mejorarían más la vida humana cuando se resuelvan?

¿Realmente utilizas los algoritmos informáticos que aprendes en la universidad cuando consigues un trabajo? En caso afirmativo, ¿cuál es el mejor trabajo que puede permitirse en algoritmos?

¿De qué se tratan las estructuras de datos como curso de informática? . ¿Y depende de algún idioma?

He estado tratando de aprender el análisis de algoritmos usando el libro CLRS, sin embargo, encuentro que ese libro es difícil de entender. ¿Soy el único?

¿Cuál es un buen enfoque de aprendizaje automático para recomendar noticias basadas en el historial de lectura de un usuario?

¿Los algoritmos están sesgados inherentemente hacia las opiniones subjetivas de sus creadores humanos?

¿De qué juez en línea puedo aprender algoritmos estándar y estructuras de datos?

¿Trabajar en ciberseguridad implica mucha programación y algoritmos?

¿Hay algo llamado Algoritmo de Manhattan?

¿Cuál es la forma más rápida de invertir una cadena con más de 10000 caracteres?

¿Qué es un algoritmo para generar una lista de secuencias numéricas que consta de cinco números (00-99) de modo que cada número en una secuencia siempre ocurra en combinación ÚNICA con los otros números y no haya secuencias duplicadas?

¿Por qué la notación O grande es más común si la notación theta grande nos da más información?

¿Cuál es el mejor algoritmo para realizar la extracción de características para el reconocimiento óptico de caracteres?