¿Qué algoritmo de agrupamiento es capaz de satisfacer las 3 V de Big Data?

En general, ML, es cierto que no existe un algoritmo “mejor” para hacer una tarea, ya sea clasificación, agrupación, regresión, predicción, etc. Sin embargo, para su condición de “3V”, el candidato más cercano puede ser K-means agrupamiento, porque

  • Lineal en la complejidad del tiempo (O (N))
  • Puede manejar grandes volúmenes de datos
  • Funciona en diferentes tipos de datos. Para datos categóricos, puede demandar el modo K y datos mixtos, también puede usar otras variantes con las mismas propiedades. Más detalles a continuación
    • La respuesta de Shehroz Khan a ¿Cómo aplicamos el algoritmo de agrupación k-means para datos mixtos numéricos y categóricos?
    • La respuesta de Shehroz Khan a ¿Por qué el agrupamiento K-means funciona mal en datos categóricos? La debilidad del método K-means es que es aplicable solo cuando se define la media, uno necesita especificar K por adelantado y no puede manejar datos ruidosos y valores atípicos.