Estas no son las únicas dos opciones.
Mientras disputas tus datos tienes muchas preguntas. Ahora, para los datos faltantes, hay muchas formas de tratarlos.
Digamos que tiene una columna con 800 filas, y más de 400 de ellas están vacías, ahora no hay forma de que se puedan llenar esos datos, por lo que es mejor descartar esas columnas, e incluso si se llenan, se hacen muchos supuestos que puede traer anomalías. Uno no debe predecir más datos de los que están disponibles mientras se disputan los datos.
- ¿De qué maneras una empresa de radio puede beneficiarse de Big Data?
- ¿Qué debo hacer para implementar un código de aprendizaje automático y resolver con éxito un problema en kaggle.com?
- Soy un estudiante de biología / psicología, pero quiero entrar en ciencia de datos y aprendizaje automático. Soy un senior, así que no estoy en condiciones de volver a declarar mi especialidad. ¿Cuál sería una buena pista para mí aprender sobre ciencia de datos y programación, y eventualmente conseguir un trabajo en investigación / programación?
- ¿Debo aprender Hadoop o Python si quiero entrar en big data?
- ¿Cómo es un día típico para un científico de datos en Facebook?
Ahora, normalmente, cuando faltan datos, el caso no es similar al mencionado anteriormente. Falta una parte muy pequeña de los datos. En tales casos, uno debe llenar y no soltar la columna completa o la fila donde faltan los datos.
Llenarlo con valores medios no siempre es la opción más preferida. Digamos que tenemos datos de un grupo de personas que van a los estadios para ver partidos de fútbol y la mayoría de ellos tienen más de 30 años. Ahora bien, si hay 10 personas extrañas que están en sus 80 años o bebés, entonces la media cambia radicalmente debido a ellos. Entonces, para ignorar estos valores atípicos, en tal caso, la mediana es mejor.
Pero llenar datos después de considerar las otras características y su relación con la característica que tiene un valor perdido es el mejor hábito. Por lo tanto, uno debe echar un vistazo a sus datos, leerlos y comprenderlos, encontrar correlaciones entre los datos y luego decidir el método que se debe usar para completar los datos o descartarlos, lo que sea que lo ayude a hacer un mejor conjunto de datos que necesita para su Modelado de ML.