(Entrada del tutorial extraída de: Annalyzing Life | Tutoriales y experimentos de análisis de datos para Layman )
Imagine un almacenista que lleva un registro de todos los historiales de compra de sus clientes. Esto le permite buscar el tipo de productos en los que un comprador individual podría estar interesado. Sin embargo, hacer esto para cada individuo es extremadamente ineficiente. Una mejor solución sería clasificar a sus clientes en grupos, con cada grupo con preferencias similares. Esto le permitiría llegar a más clientes con cada recomendación de producto.
El problema es que el almacenista no sabe 1) cómo deben clasificarse sus clientes , ni 2) cuántas de esas categorías existen . Para responder estas preguntas, podemos usar la agrupación.
Definición
La agrupación de medios k es una técnica utilizada para descubrir categorías. En el sector minorista, se puede utilizar para clasificar tanto los productos como los clientes. k representa el número de categorías identificadas, y las características promedio (media) de cada categoría son notablemente diferentes de las de otras categorías.
Una ilustración
En el caso del almacenista, podemos descubrir categorías de clientes combinando información personal con historiales de compras. Esto nos permitiría agrupar clientes con antecedentes similares, que tienden a comprar productos similares.
Para ilustrar esto, podemos usar un conjunto de datos real de las personalidades y ‘me gusta’ de los usuarios de Facebook. Estos datos se obtuvieron de usuarios de Facebook que completaron un breve cuestionario de personalidad y proporcionaron información sobre las páginas de películas que les habían “gustado”. En lugar de los puntajes de personalidad, también podemos usar información demográfica como la edad o los ingresos del hogar.
Según la experiencia, podemos tener el presentimiento de que diferentes géneros de películas atraen a personas de diferentes personalidades. Para confirmar esto, podemos construir una trama de títulos de películas a lo largo de las dimensiones de la personalidad:
Desde la inspección inicial, parece haber tres grupos:
- Rojo: extrovertidos concienzudos a los que les gustan los géneros de acción y romance
- Azul: personas ansiosas y abiertas a las que les gustan los géneros de fantasía y fantasía.
- Amarillo: introvertidos con ansiedades sociales a quienes les gustan las animaciones japonesas (cultura otaku)
- Las películas en el centro parecen ser las favoritas de los hogares.
Con esta información, el almacenista ahora puede estar más seguro de recomendar productos a los clientes interesados. Por ejemplo, si un cliente compró un DVD de 27 vestidos , el almacenista podría deducir que es probable que su cliente sea concienzudo o extravertido, y también podría estar interesado en otra película en el mismo grupo, como 50 First Dates . Además de la recomendación de productos, estos grupos también permiten al almacenista agrupar productos similares para obtener descuentos efectivos.
Explicación técnica
Después de ver cómo se pueden usar los clústeres, ahora examinaremos cómo funciona la técnica. Recuerde que la agrupación resuelve dos problemas:
- Determinar el número de categorías que existen
- Determinar los miembros de cada categoría.
Una forma de averiguar el número de categorías es mediante inspección visual, como en la trama anterior de títulos de películas.
Otra forma es usar algo llamado diagrama de pantalla:
(Gráfico de pantalla que muestra un ‘pliegue’ donde el número de grupos es igual a 3)
Este gráfico muestra cómo disminuye la dispersión dentro del grupo (es decir, qué tan disperso está un grupo) a medida que aumenta el número de grupos. Con más grupos, los miembros del grupo pueden estar más cerca de los centros de los grupos, formando grupos más compactos. Por el contrario, si solo hay un clúster al que pertenecen todos los miembros, la dispersión dentro del clúster sería máxima.
La elección del número de grupos se basa en el principio de rendimientos marginales decrecientes. Si hay demasiados grupos pequeños, el resultado puede ser demasiado complejo, de modo que las categorías no se pueden generalizar a nuevos productos o clientes. Por lo tanto, el diagrama de pantalla revela un “nudo” en el que el número de grupos derivados puede reducir la dispersión dentro del grupo en un grado razonable, más allá del cual tener más grupos produciría grupos más pequeños y aún más pequeños. Estos grupos más pequeños tienen un costo creciente de resultados más complejos y menos generalizables.
Después de determinar el número de clústeres, podemos determinar la membresía del clúster. Esto implica un proceso iterativo simple. Ilustraremos este proceso con un ejemplo de 2 grupos:
Paso 1: Comience adivinando dónde están los puntos centrales de cada grupo. Llamemos a estos pseudo-centros, ya que aún no sabemos si realmente están en el centro de sus grupos.
Paso 2: Asigne cada punto de datos al pseudocentro más cercano. Al hacerlo, acabamos de formar grupos, y cada grupo comprende todos los puntos de datos asociados con su pseudocentro.
Paso 3: Actualice la ubicación del pseudocentro de cada clúster, de modo que ahora esté en el centro de todos sus miembros.
Paso 4: repita los pasos de reasignar miembros del clúster (Paso 2) y reubicar los centros del clúster (Paso 3), hasta que no haya más cambios en la membresía del clúster. Vea el proceso iterativo completo en la animación a continuación:
Estos 4 pasos concluyen el proceso de determinar la membresía del clúster. El mismo proceso se usa para 3 o más grupos. Además, si bien el ejemplo anterior solo muestra puntos de datos que varían a lo largo de 2 dimensiones (ya que los gráficos bidimensionales son más fáciles de visualizar), la agrupación también se puede hacer para 3 o más dimensiones. En otras palabras, el almacenista podría agrupar a sus clientes combinando múltiples fuentes de información además de su personalidad, como su edad, ingresos y qué tan lejos está su hogar de su tienda.
Además del sector minorista, la agrupación se utiliza en una amplia gama de campos. Por ejemplo, la agrupación puede ayudar a identificar genotipos biológicos y a identificar puntos críticos de actividad criminal.
Limitaciones
Si bien k -means clustering es una herramienta útil, no está exenta de limitaciones:
- Cada punto de datos solo se puede asignar a un clúster. A veces, un punto de datos puede estar en el medio de 2 grupos, con la misma posibilidad de ser asignado a cualquiera de ellos, pero luego un pequeño turno podría empujarlo de manera superflua a uno de ellos. Por lo tanto, una solución más sólida podría incluir valores de probabilidad, que indican la probabilidad de que cada punto de datos pertenezca a cada grupo.
- Se supone que los grupos son esféricos. La distancia desde un centro de clúster hasta su punto de datos más alejado es similar al radio del clúster, y el proceso iterativo de encontrar puntos de datos más cercanos al centro de clúster es similar a estrechar el radio del clúster, de modo que los clústeres resultantes son esferas compactas. Esto podría plantear un problema si la forma de un grupo real es, por ejemplo, una elipse. Un clúster alargado puede truncarse y sus miembros subsumirse en un clúster cercano.
- Se supone que los grupos son discretos. La agrupación de medios k no permite que los clústeres se superpongan ni se aniden entre sí.
Si bien existen algoritmos de agrupamiento alternativos que superan estas limitaciones, la fortaleza del algoritmo de agrupamiento k- significa radica en su elegante simplicidad. Una buena estrategia podría ser comenzar con la agrupación de medios k para obtener una comprensión básica de la estructura de datos, antes de sumergirse en métodos más avanzados para examinar áreas donde la agrupación de medios k no es suficiente.
Descargar: Script R utilizado para simular procesos iterativos .
Para más tutoriales, visite mi sitio: Annalyzing Life | Tutoriales y experimentos de análisis de datos para Layman