¿Es razonable excluir valores atípicos en su conjunto de datos de entrenamiento para su clasificador?

Sin más información no me parece razonable. Al eliminar un valor atípico simplemente porque es un valor atípico, está eliminando la señal de su modelo. Hay excepciones.

Algunos ejemplos:

Los valores atípicos son errores. Por ejemplo, estoy trabajando en un conjunto de datos donde descubrí que algunos usuarios tenían días de retención negativos. En el análisis del juego (y otros), los días de retención es el número de días transcurridos desde que el usuario usó la aplicación por primera vez, lo que significa que siempre es> = 0. En estos casos, siempre excluyo los valores atípicos de los conjuntos de entrenamiento y prueba y necesito estar seguro que este error no ocurre en datos nuevos.
Los valores atípicos son simplemente valores atípicos. El porcentaje de usuarios que pagan en los primeros 30 días de actividad en un juego freemium es de alrededor del 2%. Por lo tanto, todos los usuarios que pagan son, por todas las razones prácticas previstas, valores atípicos. ¡Naturalmente debo mantenerlos!
Los valores atípicos son valores atípicos … y quiero encontrar los valores atípicos. Cualquier tipo de detección de anomalías, detección de fraude, detección de abandono … si tiene la detección de palabras, ¡es muy probable que estemos “persiguiendo” valores atípicos!
Los valores atípicos aparecen en una variable calculada que es la variable objetivo. Solo vi esto en las tareas de regresión. Usando el ejemplo de los usuarios que pagan, digamos que quiero predecir los ingresos por usuario después de 365 días. Con un 2% de usuarios gastando en los primeros 30 días en promedio, obtendré ingresos por usuario que van de $ 0 a $ 1K por usuario. La razón de esto es que en grupos muy pequeños de usuarios, un solo usuario puede hacer una gran diferencia, especialmente si él / ella gasta mucho. En este caso, prefiero excluir estos grupos si y solo si no son representativos de los nuevos datos finales que utilizaré. Ejemplo: si mis nuevos datos siempre tendrán más de 1000 usuarios, no usaré grupos más pequeños que eso en los conjuntos de entrenamiento y prueba.

En cuanto a los clasificadores, muchos algoritmos de clasificación son algo robustos para los valores atípicos. Los algoritmos que crean límites lineales (por ejemplo, LDA) son algo robustos pero estarán sesgados si los datos no son linealmente separables. Los algoritmos que utilizan métodos de conjunto (por ejemplo, RF) funcionan bastante bien al menos en los datos de entrenamiento. Los modelos de árbol (nuevamente RF) funcionan bien en presencia de valores atípicos.

El ajuste de los hiperparámetros del modelo juega un papel muy importante en los clasificadores. En cuanto a la regresión, me enfoco en usar modelos robustos. La compensación es la velocidad. No me importa eso en el tiempo de entrenamiento.

Mi regla general (actual) es que si el valor atípico es un error, lo elimino, si no, creo que es muy difícil de entender en el producto final de datos. A veces mi problema es no tener suficientes valores atípicos que se reducen a un conjunto de datos no balanceado.

¡Espero que esto ayude!