Mientras se construye un modelo de datos predictivos, ¿el tratamiento para valores perdidos y valores atípicos debe realizarse tanto en los conjuntos de datos de entrenamiento como de prueba?

Si. Debe realizar un tratamiento de valor perdido tanto para el conjunto de datos de entrenamiento como de prueba. Suponga que si ha realizado un tratamiento de valor perdido en los datos de su tren y luego entrenó a un modelo usando este conjunto de datos, y suponga que el modelo usa la media de un predictor (supongamos la edad). En este caso, cuando use el modelo para predecir valores en el conjunto de datos de prueba, obtendrá los valores medios como nulos y su predicción afectará mucho.

Entonces, un enfoque es el row_bind el tren y probar antes de la limpieza de datos y luego limpiar el conjunto de datos completo. Una vez que haya limpiado sus datos, puede separar el conjunto de datos en el tren y volver a probar. Además, si está dividiendo su tren en 70-30 para obtener la precisión de su modelo, es una buena práctica mezclar primero el conjunto de datos del tren.

Big DataBig Data AnalysisDataData AnalysisData MiningData ScienceMachine Learning

Related Content

¿Cómo se sienten los estudiantes de doctorado en aprendizaje automático después del reciente aumento del aprendizaje profundo? ¿Creen que gran parte de su arduo trabajo se desperdiciará?

¿Cuáles son algunos ejemplos de cómo se aplica la ciencia de datos en la inversión?

¿Será demasiado tarde para hacer una maestría en informática especializada en inteligencia artificial y ciencia de datos a partir de 2018 otoño?

¿Qué debo hacer a continuación para conseguir un trabajo en Data Science y Machine Learning en India?

¿Cuáles son los mejores libros sobre ciencia de datos?

¿Cómo se ha reflejado la revolución de los grandes datos en otros países además de los Estados Unidos?

¿Cuáles son los paquetes R más utilizados para la minería de datos o la ciencia de datos?

More Interesting

¿Qué recopiló / recopiló para comenzar con la visualización de datos?

¿Cómo evaluaría la calidad de los datos y cómo se pueden mejorar?

¿Cuál es la diferencia entre hacer ciencia de datos en Google, Amazon y WalmartLabs y hacerlo en Mu Sigma, Accenture y Opera Solutions?

¿Cuáles son los antecedentes de los miembros del equipo de datos de Quora?

¿Puedes trabajar remotamente como científico de datos?

¿Qué es mejor: zipfian o información para el campo de entrenamiento de ciencia de datos?

¿Qué algoritmos se utilizan para resolver problemas de aprendizaje automático basados en gráficos?

¿Qué tan difícil es ser admitido en el campo de entrenamiento de ciencia de datos de Insight?

¿Cómo influye Big Data en la gestión del talento?

¿Un "científico de datos" en un negocio basado en datos realiza esencialmente las mismas funciones que un Wall Street Quant?

¿Cuál es la diferencia entre los conceptos de minería de datos y Big Data?

¿Qué tecnología sería la mejor entre el desarrollo (Big Data-Hadoop / Android Application), considerando el crecimiento futuro, la estabilidad y el pago?

¿Cuáles son las perspectivas de empleo si completo el Master de Ciencia de Datos de Código Abierto en http://datasciencemasters.org?

¿Cómo se aplica la ciencia de datos a la robótica?

¿Cómo se puede usar Big Data contra nosotros?

Web Analytics