Si. Debe realizar un tratamiento de valor perdido tanto para el conjunto de datos de entrenamiento como de prueba. Suponga que si ha realizado un tratamiento de valor perdido en los datos de su tren y luego entrenó a un modelo usando este conjunto de datos, y suponga que el modelo usa la media de un predictor (supongamos la edad). En este caso, cuando use el modelo para predecir valores en el conjunto de datos de prueba, obtendrá los valores medios como nulos y su predicción afectará mucho.
Entonces, un enfoque es el row_bind el tren y probar antes de la limpieza de datos y luego limpiar el conjunto de datos completo. Una vez que haya limpiado sus datos, puede separar el conjunto de datos en el tren y volver a probar. Además, si está dividiendo su tren en 70-30 para obtener la precisión de su modelo, es una buena práctica mezclar primero el conjunto de datos del tren.
- ¿Whatsapp es una aplicación de minería de datos?
- ¿Tener experiencia en ciencia de datos es útil para los negocios?
- ¿Cuáles son las desventajas de las notebooks iPython para el análisis de datos? ¿Hay algún trabajo de investigación disponible que hable sobre la rigidez y la linealidad del portátil?
- ¿Qué tan necesario es una comprensión profunda de la computación paralela para un científico de datos?
- ¿Cuándo los vecinos más cercanos clasificador \ regresión fallarían miserablemente?