Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

Solo agregaré algunos puntos a la respuesta de Jalem Raj Rohit. No necesita excluir las entradas extremas, puede crear filtros para reemplazarlos utilizando la mediana de los datos. Los puntos extremos generalmente se denominan valores atípicos en las estadísticas y la minería de datos. La detección de valores atípicos en la ciencia de datos no es una ciencia difícil, el enfoque depende completamente del tipo de problema que tenga en sus manos. Como no ha especificado los detalles de sus datos como si se tratara de una serie de tiempo o de una simple sección transversal. No es posible sugerir ningún método específico, sin embargo, los enfoques básicos serían el filtrado basado en la media , el filtrado basado en la mediana . En el primer caso, reemplaza los valores atípicos más allá de algunas desviaciones estándar de la media por la propia media, sin embargo, este método no es robusto y el método sugerido debe ser que calcule la Desviación Absoluta Mediana y luego reemplace los valores atípicos con la mediana de los datos .
Hice un enfoque similar cuando tenía muestras limitadas y no quiero desperdiciar ningún punto de datos. Puedes ver el gráfico a continuación.
Puedes ver que había reemplazado mis valores atípicos usando la mediana y estoy bastante satisfecho con esto.

Alternativamente, este es un ejemplo dado por scikit-Learn, pero este método no era tan adecuado para los datos que tenía en mi mano.
También probé el enfoque de detección de valores atípicos basado en la transformación de Fourier que también me ayudó en gran medida.

Algunas veces, hacer un análisis exploratorio usando boxplot también puede ayudarlo.

Por lo tanto, mi consejo sería: primero comprenda sus datos y luego busque los métodos adecuados que sean adecuados para su análisis. Intente no desperdiciar ningún dato eliminando los valores.

Según su pregunta, es un problema de estadísticas. Porque, si he entendido correctamente, está calculando los puntajes z de las entradas e intentando eliminar los extremos (valores atípicos).

Y déjame explicarte, cuando el problema similar se convierte en ML.
Tiene algunos datos, ahora escribe un algoritmo que elimina automáticamente los valores atípicos, como el algoritmo de distancia de Mahanoblis, etc. Ahora, si agrega nuevas entradas, el algoritmo debe detectar automáticamente si es un algoritmo o no. También podría implementar una red neuronal también, para identificar el nivel de extremidad, pero eso es solo una adición.

Por lo tanto, una ligera modificación puede convertir un enfoque estadístico en un enfoque de Aprendizaje automático. Entonces, a partir de ahora, el suyo es un enfoque estadístico.

¿Parece que te refieres a calcular el promedio de datos univariados?

Simplemente use la media de recorte, en otro corte las colas de la distribución, o simplemente use una mediana.

Depende de cómo lo mire y cómo se vean sus datos. Básicamente, lo que está intentando hacer aquí es ‘detección de valores atípicos’ y su posterior eliminación. Si desea realizar un análisis estadístico, puede identificar estos valores atípicos utilizando el método de rango intercuartil. Si desea eliminar observaciones anormales de los sensores de movimiento, puede establecer un umbral en las probabilidades de registro obtenidas de los modelos ocultos de Markov u otro método de clasificación probabilística. Si desea utilizar un enfoque de aprendizaje automático, puede utilizar máquinas de vectores de soporte de una clase.