Solo agregaré algunos puntos a la respuesta de Jalem Raj Rohit. No necesita excluir las entradas extremas, puede crear filtros para reemplazarlos utilizando la mediana de los datos. Los puntos extremos generalmente se denominan valores atípicos en las estadísticas y la minería de datos. La detección de valores atípicos en la ciencia de datos no es una ciencia difícil, el enfoque depende completamente del tipo de problema que tenga en sus manos. Como no ha especificado los detalles de sus datos como si se tratara de una serie de tiempo o de una simple sección transversal. No es posible sugerir ningún método específico, sin embargo, los enfoques básicos serían el filtrado basado en la media , el filtrado basado en la mediana . En el primer caso, reemplaza los valores atípicos más allá de algunas desviaciones estándar de la media por la propia media, sin embargo, este método no es robusto y el método sugerido debe ser que calcule la Desviación Absoluta Mediana y luego reemplace los valores atípicos con la mediana de los datos .
Hice un enfoque similar cuando tenía muestras limitadas y no quiero desperdiciar ningún punto de datos. Puedes ver el gráfico a continuación.
Puedes ver que había reemplazado mis valores atípicos usando la mediana y estoy bastante satisfecho con esto.
Alternativamente, este es un ejemplo dado por scikit-Learn, pero este método no era tan adecuado para los datos que tenía en mi mano.
También probé el enfoque de detección de valores atípicos basado en la transformación de Fourier que también me ayudó en gran medida.
Algunas veces, hacer un análisis exploratorio usando boxplot también puede ayudarlo.
Por lo tanto, mi consejo sería: primero comprenda sus datos y luego busque los métodos adecuados que sean adecuados para su análisis. Intente no desperdiciar ningún dato eliminando los valores.
- ¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?
- Cómo calcular un puntaje usando la prueba de relación de distancia al vecino más cercano en MATLAB
- ¿Cuáles son algunos modelos de detección de rostros basados en aprendizaje profundo disponibles gratuitamente?
- ¿Hay ejemplos de organizaciones de ciencias de la vida que logren resultados en el descubrimiento de drogas a través del aprendizaje automático que no serían posibles sin el aprendizaje automático?
- ¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?