¿Qué tipo de algoritmo de Machine Learning usarías para segmentar a tus clientes en múltiples grupos?

Al igual que con muchos problemas de aprendizaje automático, es difícil responder sin mirar los datos, e incluso entonces, rara vez hay una solución única para todos.

K-means, como se menciona en la otra respuesta, es de hecho uno de los algoritmos de agrupamiento más comunes. Sin embargo, adolece de muchas fallas y no hay garantías de que el clúster que obtendrá le sea de utilidad. Por supuesto, sus datos deben ser probablemente normalizados, para que todas las variables tengan una ponderación similar. Incluso entonces, k-means usa inicialización aleatoria, por lo que diferentes ejecuciones pueden dar como resultado diferentes resultados (si no lo hace, eso también significa que su clúster es algo estable, lo cual es bueno). Si te quedas con k-means, prueba con diferentes semillas de inicialización y ve qué se adapta mejor a tus problemas. También puede considerar la agrupación jerárquica o DBSCAN / OPTICS si tiene datos geográficos. Echa un vistazo a esta página wiki para comenzar.

Sin embargo, el enfoque que probablemente tomaría es etiquetar parte de los datos. Eso significa, predefinir sus grupos (por ejemplo, “pagador alto”, “leal”, “podría irse”, o no sé qué corresponde a su problema) y asignar uno de estos grupos a todos los clientes de su conjunto de entrenamiento. Luego puede entrenar un algoritmo de aprendizaje supervisado, lo que desee (pista: esos días se trata de árboles impulsados ​​por gradiente), y usarlo en el resto de sus datos (para validar y luego aplicar). Por supuesto, es más trabajo y requiere que conozca cierta información sobre sus clientes, pero será mucho más predecible y más probable que lo ayude en su problema.

Agrupación Más específicamente, k-Means Clustering.

Es un algoritmo simple pero muy útil. Todo lo que necesita hacer es especificar un número de grupos, o grupos, k. Luego, el algoritmo agrupa a todos sus clientes en k grupos para que los miembros de cada grupo estén lo más cerca posible de los otros miembros del mismo grupo.

El desafío en el análisis de agrupamiento no es la parte del aprendizaje automático en sí. El desafío es interpretar los resultados y comprender lo que representan los grupos. Además, es posible que deba jugar con diferentes valores de k para ver qué produce los resultados más útiles.