¿Por qué usamos k-means clustering? ¿Qué usos tiene en un escenario del mundo real?

solíamos filtrar algunos valores irregulares de nuestro conjunto de datos de entrenamiento.

Antecedentes : el conjunto de datos se creó extrayendo el tiempo que toma cada subproceso para realizar una operación en particular. La extracción de esta información de tiempo se realizó utilizando alguna herramienta [confidencial].

Ahora se produjo un escenario en el que en algún momento hubo valores de tiempo demasiado altos debido a algún otro proceso relacionado con el sistema operativo.

Entonces realizamos las mismas operaciones 10 veces como esta (us = microsegundos)

  1. 105 nosotros
  2. 110 nosotros
  3. 98 nosotros
  4. 125 nosotros
  5. 988 nosotros
  6. 122 nosotros
  7. 118 nosotros
  8. 1004 nosotros
  9. 98 nosotros
  10. 106 nosotros

Ahora es claramente visible que la iteración 5 y 8 son algunos valores irregulares. Como en ese momento el tiempo aumentó debido a algún otro proceso interno.

Ahora aquí usamos K mean clustering con 2 clases para eliminar estas iteraciones irregulares del conjunto de datos.

More Interesting

¿Cuál es el papel de la función de activación en una red neuronal? ¿Cómo funciona esto en un sistema de red neuronal humana?

¿Cómo podría usar el aprendizaje automático para clasificar los datos 1D?

¿Cuáles son algunas de las ventajas del aprendizaje por diferencia temporal y cómo se puede mejorar?

¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?

¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?

¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

¿Es posible generar datos de expresión genética artificial? Las imágenes a veces se pueden perturbar para aumentar el tamaño de las muestras con fines de aprendizaje automático.

¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?

¿En qué se diferencia LSTM de RNN? En una explicación laica.

¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

¿Cuáles son algunos algoritmos de aprendizaje automático que puedo aprender sin cálculo?

¿Qué suele hacer que una red neuronal deje de mejorar temprano?

¿Ubuntu es mejor con machine learning que mac?

¿La regresión logística tiene en cuenta el desequilibrio de datos?