Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

Solo agregaré algunos puntos a la respuesta de Jalem Raj Rohit. No necesita excluir las entradas extremas, puede crear filtros para reemplazarlos utilizando la mediana de los datos. Los puntos extremos generalmente se denominan valores atípicos en las estadísticas y la minería de datos. La detección de valores atípicos en la ciencia de datos no es una ciencia difícil, el enfoque depende completamente del tipo de problema que tenga en sus manos. Como no ha especificado los detalles de sus datos como si se tratara de una serie de tiempo o de una simple sección transversal. No es posible sugerir ningún método específico, sin embargo, los enfoques básicos serían el filtrado basado en la media , el filtrado basado en la mediana . En el primer caso, reemplaza los valores atípicos más allá de algunas desviaciones estándar de la media por la propia media, sin embargo, este método no es robusto y el método sugerido debe ser que calcule la Desviación Absoluta Mediana y luego reemplace los valores atípicos con la mediana de los datos .
Hice un enfoque similar cuando tenía muestras limitadas y no quiero desperdiciar ningún punto de datos. Puedes ver el gráfico a continuación.
Puedes ver que había reemplazado mis valores atípicos usando la mediana y estoy bastante satisfecho con esto.

Alternativamente, este es un ejemplo dado por scikit-Learn, pero este método no era tan adecuado para los datos que tenía en mi mano.
También probé el enfoque de detección de valores atípicos basado en la transformación de Fourier que también me ayudó en gran medida.

Algunas veces, hacer un análisis exploratorio usando boxplot también puede ayudarlo.

Por lo tanto, mi consejo sería: primero comprenda sus datos y luego busque los métodos adecuados que sean adecuados para su análisis. Intente no desperdiciar ningún dato eliminando los valores.

¿Qué técnicas utilizadas en el procesamiento del lenguaje natural son aplicables a otras áreas del aprendizaje automático?

¿Cómo puede Machine Learning ayudar a un desarrollador de Android?

¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?

¿Qué debe hacer un estudiante de diploma para aprender software o aprendizaje automático?

¿Cuáles son algunos buenos sitios web para descargar canciones en inglés gratis?

¿Qué puedo hacer con una base de datos de 800 GB de un sitio de reserva de boletos en línea? (Películas, obras de teatro, algunos eventos deportivos)?

Según su pregunta, es un problema de estadísticas. Porque, si he entendido correctamente, está calculando los puntajes z de las entradas e intentando eliminar los extremos (valores atípicos).

Y déjame explicarte, cuando el problema similar se convierte en ML.
Tiene algunos datos, ahora escribe un algoritmo que elimina automáticamente los valores atípicos, como el algoritmo de distancia de Mahanoblis, etc. Ahora, si agrega nuevas entradas, el algoritmo debe detectar automáticamente si es un algoritmo o no. También podría implementar una red neuronal también, para identificar el nivel de extremidad, pero eso es solo una adición.

Por lo tanto, una ligera modificación puede convertir un enfoque estadístico en un enfoque de Aprendizaje automático. Entonces, a partir de ahora, el suyo es un enfoque estadístico.

Wesley Deelman

¿Parece que te refieres a calcular el promedio de datos univariados?

Simplemente use la media de recorte, en otro corte las colas de la distribución, o simplemente use una mediana.

Wesley Deelman

Depende de cómo lo mire y cómo se vean sus datos. Básicamente, lo que está intentando hacer aquí es ‘detección de valores atípicos’ y su posterior eliminación. Si desea realizar un análisis estadístico, puede identificar estos valores atípicos utilizando el método de rango intercuartil. Si desea eliminar observaciones anormales de los sensores de movimiento, puede establecer un umbral en las probabilidades de registro obtenidas de los modelos ocultos de Markov u otro método de clasificación probabilística. Si desea utilizar un enfoque de aprendizaje automático, puede utilizar máquinas de vectores de soporte de una clase.

Jalem Raj Rohit

More Interesting

¿Cuál es la maldición de la dimensionalidad?

¿Puedo usar una CPU para generar datos (aumento) cuando el entrenamiento de flujo de tensor en GPU es de forma paralela?

¿Cuáles son algunos de los análisis predictivos inteligentes y el aprendizaje automático que uno puede hacer con los datos de flujo de clics?

Cómo comenzar a trabajar en un proyecto de análisis de sentimientos

¿Puede un ingeniero eléctrico seguir una carrera en aprendizaje automático en el futuro?

¿A qué tipo de personalización en Machine Learning se refería Andrew Ng en su artículo de Harvard Business Review sobre las capacidades de IA?

Cómo elegir el modelo correcto con la distribución correcta

¿Hay alguna forma de implementar TSVM usando bibliotecas SVM?

¿Cómo se aplica el aprendizaje profundo en la industria?

¿Cómo se compara la industria del aprendizaje automático con las opciones de carrera dentro del desarrollo web?