Al igual que con muchos problemas de aprendizaje automático, es difícil responder sin mirar los datos, e incluso entonces, rara vez hay una solución única para todos.
K-means, como se menciona en la otra respuesta, es de hecho uno de los algoritmos de agrupamiento más comunes. Sin embargo, adolece de muchas fallas y no hay garantías de que el clúster que obtendrá le sea de utilidad. Por supuesto, sus datos deben ser probablemente normalizados, para que todas las variables tengan una ponderación similar. Incluso entonces, k-means usa inicialización aleatoria, por lo que diferentes ejecuciones pueden dar como resultado diferentes resultados (si no lo hace, eso también significa que su clúster es algo estable, lo cual es bueno). Si te quedas con k-means, prueba con diferentes semillas de inicialización y ve qué se adapta mejor a tus problemas. También puede considerar la agrupación jerárquica o DBSCAN / OPTICS si tiene datos geográficos. Echa un vistazo a esta página wiki para comenzar.
Sin embargo, el enfoque que probablemente tomaría es etiquetar parte de los datos. Eso significa, predefinir sus grupos (por ejemplo, “pagador alto”, “leal”, “podría irse”, o no sé qué corresponde a su problema) y asignar uno de estos grupos a todos los clientes de su conjunto de entrenamiento. Luego puede entrenar un algoritmo de aprendizaje supervisado, lo que desee (pista: esos días se trata de árboles impulsados por gradiente), y usarlo en el resto de sus datos (para validar y luego aplicar). Por supuesto, es más trabajo y requiere que conozca cierta información sobre sus clientes, pero será mucho más predecible y más probable que lo ayude en su problema.
- ¿Cómo se pueden condensar hipergrafías construidas para problemas de flujo de red que implican minimizar el tiempo necesario para impulsar el flujo desde la fuente al sumidero?
- Solicitar respuestas (función Quora): ¿El algoritmo de crédito es proporcional?
- ¿Cuál es la diferencia entre la mochila y los problemas de Cutting the Rod usando programación dinámica?
- ¿Qué tipo de algoritmo de Machine Learning usarías para segmentar a tus clientes en múltiples grupos?
- Cómo resolver el problema INUMBER usando gráficos