¿Cómo se manejan los datos faltantes en un gran conjunto de datos con características ordinales?

Tienes múltiples opciones.

  1. Elija el valor faltante como otro valor ordinal.
  2. Tome la mediana de todos los valores.
  3. Para alguien que quiera experimentar, tome los ejemplos que tienen el atributo presente y entrene a un clasificador de múltiples clases usando ese atributo como la etiqueta de clase y otros atributos como características (el más simple es una regresión logística, un método de entrenamiento más simple y sencillo) use knn) e intente predecir el atributo para aquellas muestras que no tienen el atributo presente.
  4. Si conoce la distribución de probabilidad de ese atributo, puede muestrearlos usando esa distribución.

La técnica que adoptes depende de cuál sea tu objetivo final. ¿Puedes intentar eliminar esas muestras que tienen una característica que falta? ¿Impacta estadísticamente su modelo? Puede ser que no.

Dele a cada función un número.

Por ejemplo: muy satisfecho = 5, satisfecho = 4, neutral = 3, insatisfecho = 2, pero puede elegir cualquier intervalo de números descendentes.

Una vez que tenga esto, puede calcular la media (o media ponderada si lo desea) para cada caso y luego regresar y sustituir los valores faltantes con la media (que encontró anteriormente) para ese caso.

Más en detalle: si de las 20000 personas que han respondido la pregunta X le faltan 100 respuestas (valores faltantes), tome la media que calculó como indiqué y dele los valores faltantes. Por supuesto, primero debes traducirlo. Entonces, si la media que encuentra es igual a 3,2, eso corresponderá a “neutral” y una media igual a 4,7 parece más probable que esté “muy satisfecha”.

Un posible método de relleno para las características ordinales es usar el modo, ya que es el valor que es más probable que ocurra.

También puede probar la imputación múltiple o KNN para completar los valores faltantes que condicionan los valores de otras columnas. Si usa la imputación múltiple, es posible que necesite transformar sus valores ordinales en valores numéricos y luego ejecutarlo con el método de coincidencia de medias predictivo para obtener un resultado razonable.

Como son ordinales, de todos modos debe pensar en cómo manejar los valores ordinales.

Respuesta simple: simplemente complete el nulo / faltante con ‘faltante’.

El siguiente es cómo lidiar con los valores ordinales.

More Interesting

Para convertirse en un científico de datos, ¿en qué campos son los más útiles?

¿Cómo debe establecerse el propósito de un servidor de datos?

¿Qué tendencias populares de visualización de datos odian los científicos de datos?

¿Qué herramientas existen para resumir documentos muy especializados (por ejemplo, documentos legales o médicos)? ¿Cuál es la diferencia entre estas herramientas y las genéricas?

¿Cómo se puede aplicar la ciencia de datos a los negocios de banca privada o gestión de patrimonio en los bancos de inversión?

Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?

¿Cuál es la diferencia entre estadísticos y adivinos?

¿Qué es mejor para analizar datos de redes sociales: almacén de datos o una solución de big data?

¿Cuál es la mejor opción de alojamiento para una empresa de big data?

¿Dónde está la 'ciencia' en 'ciencia de datos'?

¿Está bien incluir una variable no significativa en un modelo lineal generalizado (GLM)?

¿Vale la pena aprender sobre ciencia de datos?

¿Qué implica la creación de una aplicación para consumir, procesar y filtrar la manguera de Twitter de tweets en tiempo real?

¿Está Microsoft Excel fuera de moda y menospreciado por los profesionales de la ciencia de datos?

¿En qué industria sería mejor para un analista de datos de nivel básico crecer, como científico de datos o consultor tecnológico en el futuro?