Si conoces las etiquetas de clase, ¿por qué harías clustering? Si haces clustering, ¿cuál es el punto de conocer las etiquetas de clase? ¿Cuál es la garantía de que el algoritmo de agrupación X que funciona en estos datos simulados funcionará exactamente igual en los datos del mundo real? ¿Los datos reales también seguirían la misma distribución (y no similar) que la de los datos artificiales?
Creo que necesitas aclararte lo que quieres hacer? ¿Cuál es exactamente el problema que quieres resolver? ¿Entiendes lo que hacen DPGMM, VBGMM, GMM, aglomerativo, K-significa clustering ?, ¿en qué se diferencian? ¿Y qué tipo de estructuras de clúster forman? ¿Por qué no probaste otros enfoques de agrupamiento como el basado en densidad (DBSCAN), puede que no esté disponible en sci-kit? Antes de emplear cualquier enfoque, comience con uno simple y piense cuidadosamente por qué querría usarlo. Un enfoque complejo puede aumentar los gastos generales y puede no ser apropiado (navaja de afeitar de Occam).
A veces, hay algunos datos etiquetados disponibles y muchos datos no etiquetados, para esas situaciones los enfoques semi-supervisados funcionan mejor (lea esta página de la encuesta en wisc.edu). Si todos sus datos no están etiquetados, entonces agrupa en grupo fuera de curso y para adivinar el número real de grupos, emplea algún índice de validez de grupo y hay muchos de ellos disponibles (lea esta página en sigmod.org). Comience con un algoritmo de agrupación simple, como K-means y vea cómo funciona. Además, es muy difícil anticipar que los números de clúster se mantendrán fijos a medida que lleguen nuevos datos, a menos que esté muy seguro de que la distribución de datos sigue siendo la misma y ha creado grupos en gran cantidad de datos. Si sus datos no etiquetados vienen en forma continua, usted emplea el agrupamiento en línea (lea la página de este capítulo en charuaggarwal.net). Por último, hay un documento de NIPS sobre agrupación supervisada (Lea aquí la página en stanford.edu), puede ser esto puede ayudarlo o esto es lo que está buscando.
- ¿Existe alguna buena información para el aprendizaje automático de pronóstico de demanda de capacitación? Estoy buscando datos de ventas de series temporales con muchos atributos.
- ¿Cuáles son los desafíos de construir un equipo de datos en una startup?
- ¿Cuál es la mejor manera de aprender ciencia de datos sin ir a una institución?
- ¿Cuál de estos cursos debo tomar en edureka.co para convertirme en un científico de datos?
- Soy ingeniero industrial (nunca he estado en ciencias de la computación) pero estoy interesado en la ciencia de datos. ¿Qué tengo que hacer?