¿Cuál es la mejor manera de lidiar con los datos faltantes cuando se utiliza la regresión polinómica fraccional?

No he hecho ninguna regresión polinómica fraccional antes y, por lo tanto, tengo cero experiencia “real” o conocimientos sobre cómo completar los datos faltantes.

Dicho esto, si tuviera que trabajar en este problema, realizaré el siguiente método (es un enfoque genérico de ML que uso a menudo):

  • Investigue [matemática] N [/ matemática] (cuanta más potencia de cálculo tenga, mayor será) formas plausibles de completar los datos faltantes en este escenario. Podría ser con la mediana, la media, una media local (dada una ventana deslizante), el valor más común y muchas otras opciones.
  • Elija un método, complete los datos faltantes y realice la regresión
  • Calcule la métrica de evaluación para su problema (en un conjunto de prueba)
  • Repita los dos pasos anteriores para cubrir los métodos [matemáticos] N [/ matemáticos]
  • Elija el que tenga el mejor rendimiento (estadístico). Si este método es el mejor pero es computacionalmente muy costoso, elija la segunda mejor opción (y así sucesivamente).

Espero que esto haya sido útil a pesar de la falta de precisión.

Es posible que desee leer una respuesta relacionada aquí: la respuesta de Shehroz Khan a ¿Cómo manejo la variable categórica faltante de una manera fácil?

Imputación múltiple

Prácticamente resuelve todos los problemas de datos faltantes sin introducir sesgos.

More Interesting

¿Cuáles son ejemplos concretos de misiones de Data Scientist dentro de las empresas?

¿Qué libros se deben comprar para comenzar a aprender Data Science?

¿Cuáles son las habilidades valiosas necesarias para comenzar con Data Analytics?

¿Hay empresas en la India que empleen estudiantes universitarios y los capaciten en Big Data Analytics / Data Science?

¿Cómo difieren las redes neuronales y los algoritmos genéticos en términos de método, procesos y resultados?

¿Qué temas de informática necesitan aprender para ser un científico de datos? ¿Cómo se aplica en el mundo real? P.ej. colas de prioridad, buscar / ordenar algo

¿Dónde puedo encontrar datos para construir un modelo de prepago de hipoteca usando conceptos de ciencia de datos?

¿Cuáles son algunas heurísticas de visualización de datos?

¿Por qué Udacity se enfoca en Python para el análisis de datos y el aprendizaje automático en lugar de R?

¿Existe algún programa de capacitación de big data en línea?

¿Qué sigue después de la regresión múltiple para la ciencia de datos?

¿Cuáles son las diferentes estrategias de gestión de datos? ¿Sus ventajas y desventajas?

En la era del aprendizaje automático, IA, big data, etc., ¿qué tan útil es estudiar campos ya maduros como CS teóricas y bases de datos relacionales a nivel de posgrado, y luego pasar a la industria del software?

¿Cuál es la importancia y el uso de las series temporales?

Alguien sugirió que "la gente asume que los proveedores [en big data] no van a comenzar a ofrecer herramientas / IU que el lego con conocimientos básicos de estadísticas podría aprovechar". ¿Se comercializará la ciencia de datos?