Cómo agrupar la bandera de un conjunto de datos

¡Hola, gracias por el A2A!

Un buen lugar para comenzar puede ser la agrupación k-means. Este proceso iterativo ayuda a agrupar sus datos en una cantidad predeterminada de grupos agrupando puntos cercanos entre sí, utilizando una métrica específica (es decir, una forma de definir la distancia entre puntos). Obviamente, los dos problemas aquí son que, en primer lugar, su cantidad de clústeres está predefinida y, en segundo lugar, definir una métrica (como ha notado correctamente) puede ser difícil para las características categóricas.

Elegir k

Hay varias formas de elegir la cantidad de grupos. Si los datos son lo suficientemente separables, visualizarlos en varias selecciones de dos dimensiones puede darle una idea aproximada de los grupos formados. Sin embargo, si los datos (como es el caso aquí) son multidimensionales, esto puede no ser útil. Otra alternativa es el Índice de Dunn que (de Wikipedia):

[apunta] a identificar conjuntos de grupos que son compactos, con una pequeña variación entre los miembros del grupo y bien separados, donde los medios de los diferentes grupos están suficientemente separados, en comparación con la variación dentro del grupo

En esencia, tiene como objetivo minimizar la variabilidad dentro de los clústeres y maximizar la diferencia entre ellos. En muchos entornos prácticos, k en el rango de 3 a 5 puede ser bastante razonable.

Elegir una métrica

Para datos numéricos, elegir una métrica es fácil. La distancia euclidiana estándar es, bueno, estándar, pero también hay una cantidad (infinita) de otras métricas a su disposición (distancia en taxi, por ejemplo). Para las características categóricas, una forma fácil de medir la distancia es la distancia de Hamming. Una versión simplificada es la siguiente:

Digamos que su variable toma valores azul, rojo y amarillo. Si dos observaciones son de color amarillo, entonces la distancia entre ellas es 0. Si una es de color rojo y la otra azul, entonces tienen una distancia de 1, bastante intuitivo. Si crea variables ficticias (dividiendo características categóricas en una nueva característica para cada categoría que toma un valor de cero o uno), que creo que al menos algunos de los datos de banderas ya han hecho, entonces la distancia euclidiana estándar hará exactamente esto.

En cuanto a las explicaciones de sus grupos, generalmente se examinarían los grupos generados después para determinar qué similitudes muestran y, por lo tanto, intentar etiquetarlos en consecuencia (como tener una alta concentración de rayas o ser predominantemente de color rojo).

Nuevamente, k-means y Hamming distance son solo puntos de partida para una pregunta muy general. Lea la página de Wikipedia para el análisis de conglomerados y encontrará una variedad exótica de algoritmos hermosos que se agruparán de la manera más salvaje y hermosa, pero comenzar en un lugar simple siempre es una gran estrategia.