Mientras se construye un modelo de datos predictivos, ¿el tratamiento para valores perdidos y valores atípicos debe realizarse tanto en los conjuntos de datos de entrenamiento como de prueba?

Si. Debe realizar un tratamiento de valor perdido tanto para el conjunto de datos de entrenamiento como de prueba. Suponga que si ha realizado un tratamiento de valor perdido en los datos de su tren y luego entrenó a un modelo usando este conjunto de datos, y suponga que el modelo usa la media de un predictor (supongamos la edad). En este caso, cuando use el modelo para predecir valores en el conjunto de datos de prueba, obtendrá los valores medios como nulos y su predicción afectará mucho.

Entonces, un enfoque es el row_bind el tren y probar antes de la limpieza de datos y luego limpiar el conjunto de datos completo. Una vez que haya limpiado sus datos, puede separar el conjunto de datos en el tren y volver a probar. Además, si está dividiendo su tren en 70-30 para obtener la precisión de su modelo, es una buena práctica mezclar primero el conjunto de datos del tren.