Al entrenar un modelo de ML, ¿debo descartar los datos que tienen características faltantes o debo usar un valor medio para esos valores faltantes?

Estas no son las únicas dos opciones.

Mientras disputas tus datos tienes muchas preguntas. Ahora, para los datos faltantes, hay muchas formas de tratarlos.

Digamos que tiene una columna con 800 filas, y más de 400 de ellas están vacías, ahora no hay forma de que se puedan llenar esos datos, por lo que es mejor descartar esas columnas, e incluso si se llenan, se hacen muchos supuestos que puede traer anomalías. Uno no debe predecir más datos de los que están disponibles mientras se disputan los datos.

Ahora, normalmente, cuando faltan datos, el caso no es similar al mencionado anteriormente. Falta una parte muy pequeña de los datos. En tales casos, uno debe llenar y no soltar la columna completa o la fila donde faltan los datos.

Llenarlo con valores medios no siempre es la opción más preferida. Digamos que tenemos datos de un grupo de personas que van a los estadios para ver partidos de fútbol y la mayoría de ellos tienen más de 30 años. Ahora bien, si hay 10 personas extrañas que están en sus 80 años o bebés, entonces la media cambia radicalmente debido a ellos. Entonces, para ignorar estos valores atípicos, en tal caso, la mediana es mejor.

Pero llenar datos después de considerar las otras características y su relación con la característica que tiene un valor perdido es el mejor hábito. Por lo tanto, uno debe echar un vistazo a sus datos, leerlos y comprenderlos, encontrar correlaciones entre los datos y luego decidir el método que se debe usar para completar los datos o descartarlos, lo que sea que lo ayude a hacer un mejor conjunto de datos que necesita para su Modelado de ML.

Creo que la respuesta es ninguna. El estándar preferido de la industria es la imputación múltiple, una forma de obtener valores más razonables de otra información incorporada en su conjunto de datos.

Si tuviera que elegir, diría que omita el registro si tiene suficientes datos para que converja su entrenamiento modelo. De esta manera, no introduces sesgos en tu modelo con datos inexactos.

Esto depende en gran medida de su problema. Si tiene muchos datos y solo un porcentaje mínimo de datos tiene valores faltantes, puede que no valga la pena intentar imputar valores.

Por otro lado, si la mayoría de sus datos tienen algunos valores faltantes, probablemente sea una buena idea intentar adivinar los valores de alguna forma o forma. Una forma de hacerlo, como sugiere en su pregunta, es usar el valor medio; Otra alternativa es usar algo como Vecinos K-Nearest para imputar un valor, que puede funcionar bien en algunas situaciones.

La forma más fácil de averiguarlo, por supuesto, es intentar 🙂

Depende. ¿Qué tipo de datos son? ¿Esa columna realmente va a ser útil? ¿Hay otra manera mejor de imputar que la media o la mediana?

More Interesting

¿Qué libros se deben comprar para comenzar a aprender Data Science?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

Se dice que algo que funcionó muy bien con los datos de acciones anteriores puede fallar en el futuro. ¿Cómo es eso? ¿En qué formas exactas serán diferentes los datos futuros?

¿Cómo impactan los informes de Big Data y Analytics en la productividad de una empresa?

¿Qué es la piratería de datos en relación con la ciencia de datos?

¿Qué impide que Node supere a Python para la ciencia de datos?

Cuando los departamentos universitarios cambian su nombre para incluir la palabra 'Ciencia de datos', ¿se trata principalmente de marketing?

Dada la opción de buscar SAP o Data Science, ¿cuál va bien y qué es probable que ayude a buscar trabajos para una actualización?

¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?

Cómo disfrutar de un entrenamiento de Hadoop de Big Data justo después de mi 12 °

¿Es más probable que la minería de datos o la programación web generen altos salarios y oportunidades de empleo en el futuro cercano?

Al planificar una base de datos (organización, arquitectura, atributos, etc.), ¿qué tipo de consideraciones deben hacerse para facilitar el éxito y la facilidad del análisis de datos futuro?

¿Cómo manejar los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

¿Qué es la dependencia de datos?

¿Cómo es un día para un científico de bioinformática?