solíamos filtrar algunos valores irregulares de nuestro conjunto de datos de entrenamiento.
Antecedentes : el conjunto de datos se creó extrayendo el tiempo que toma cada subproceso para realizar una operación en particular. La extracción de esta información de tiempo se realizó utilizando alguna herramienta [confidencial].
Ahora se produjo un escenario en el que en algún momento hubo valores de tiempo demasiado altos debido a algún otro proceso relacionado con el sistema operativo.
- ¿Cuál es el algoritmo de aprendizaje automático más rápido para implementar para la detección de fraudes?
- ¿El curso de aprendizaje automático que el profesor Andrew Ng ofrece en Coursera me será útil como desarrollador de software profesional para resolver problemas de aprendizaje automático del mundo real?
- ¿Qué cursos de estadística de Harvard debería tomar si quiero aprender aprendizaje estadístico / aprendizaje automático?
- ¿Tiene sentido usar la selección de características antes de Random Forest?
- ¿Qué startups están usando el procesamiento del lenguaje natural?
Entonces realizamos las mismas operaciones 10 veces como esta (us = microsegundos)
- 105 nosotros
- 110 nosotros
- 98 nosotros
- 125 nosotros
- 988 nosotros
- 122 nosotros
- 118 nosotros
- 1004 nosotros
- 98 nosotros
- 106 nosotros
Ahora es claramente visible que la iteración 5 y 8 son algunos valores irregulares. Como en ese momento el tiempo aumentó debido a algún otro proceso interno.
Ahora aquí usamos K mean clustering con 2 clases para eliminar estas iteraciones irregulares del conjunto de datos.