¿Cómo se manejan los datos faltantes en un gran conjunto de datos con características ordinales?

Tienes múltiples opciones.

Elija el valor faltante como otro valor ordinal.
Tome la mediana de todos los valores.
Para alguien que quiera experimentar, tome los ejemplos que tienen el atributo presente y entrene a un clasificador de múltiples clases usando ese atributo como la etiqueta de clase y otros atributos como características (el más simple es una regresión logística, un método de entrenamiento más simple y sencillo) use knn) e intente predecir el atributo para aquellas muestras que no tienen el atributo presente.
Si conoce la distribución de probabilidad de ese atributo, puede muestrearlos usando esa distribución.

La técnica que adoptes depende de cuál sea tu objetivo final. ¿Puedes intentar eliminar esas muestras que tienen una característica que falta? ¿Impacta estadísticamente su modelo? Puede ser que no.

Análisis de datosAprendizaje automáticoBig DataCiencia de datosConjuntos de datosdatosestadísticasMinería de

¿Cuál es la naturaleza del big data?

¿Dónde debo unirme para la capacitación en ciencia de datos?

¿Vim es adecuado para la ciencia de datos?

¿Puedes compartir algunas fotos de tu lugar de trabajo?

¿Realmente Internet funcionó como pensamos que volvería en los años 90?

Cómo acceder a Facebook en mi escuela cuando está bloqueado de wifi y todos los servidores proxy también están bloqueados

Dele a cada función un número.

Por ejemplo: muy satisfecho = 5, satisfecho = 4, neutral = 3, insatisfecho = 2, pero puede elegir cualquier intervalo de números descendentes.

Una vez que tenga esto, puede calcular la media (o media ponderada si lo desea) para cada caso y luego regresar y sustituir los valores faltantes con la media (que encontró anteriormente) para ese caso.

Más en detalle: si de las 20000 personas que han respondido la pregunta X le faltan 100 respuestas (valores faltantes), tome la media que calculó como indiqué y dele los valores faltantes. Por supuesto, primero debes traducirlo. Entonces, si la media que encuentra es igual a 3,2, eso corresponderá a “neutral” y una media igual a 4,7 parece más probable que esté “muy satisfecha”.

Alket Cecaj

Un posible método de relleno para las características ordinales es usar el modo, ya que es el valor que es más probable que ocurra.

También puede probar la imputación múltiple o KNN para completar los valores faltantes que condicionan los valores de otras columnas. Si usa la imputación múltiple, es posible que necesite transformar sus valores ordinales en valores numéricos y luego ejecutarlo con el método de coincidencia de medias predictivo para obtener un resultado razonable.

Alket Cecaj

Como son ordinales, de todos modos debe pensar en cómo manejar los valores ordinales.

Respuesta simple: simplemente complete el nulo / faltante con ‘faltante’.

El siguiente es cómo lidiar con los valores ordinales.

Jiting Xu

More Interesting

Para convertirse en un científico de datos, ¿en qué campos son los más útiles?

¿Cómo debe establecerse el propósito de un servidor de datos?

¿Qué tendencias populares de visualización de datos odian los científicos de datos?

¿Qué herramientas existen para resumir documentos muy especializados (por ejemplo, documentos legales o médicos)? ¿Cuál es la diferencia entre estas herramientas y las genéricas?

¿Cómo se puede aplicar la ciencia de datos a los negocios de banca privada o gestión de patrimonio en los bancos de inversión?

Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?