Cómo representar una característica incierta en Machine Learning

Si todos los datos en esa columna son inciertos y aún tienen alguna relación con la variable realidad / objetivo, entonces, como Oliver Eberle ha mencionado, puede usarlo como si fuera otra variable independiente.

Recientemente hemos encontrado un problema en el que algunos de los ingresos no eran precisos. En algunos casos, los ingresos se almacenaron como ingresos mensuales (en lugar de ingresos anuales como todos los demás casos). Lo que hicimos fue corregir la variable de ingresos utilizando un estimador de máxima verosimilitud. Dadas otras variables como la edad, la ubicación, etc., creamos un modelo de ingresos y estimamos la probabilidad de que el ingreso dado sea mensual. Luego, en los casos en que esta probabilidad era alta, multiplicamos el número por 12 para anualizar el ingreso.

En su caso, para cada instancia, tiene tres valores de edad posibles: edad dada, edad dada + 1 y edad -1 dada. Si age tiene una relación con cualquier otra variable, puede construir un modelo pequeño para corregir la edad antes de usarla. Por otro lado, si el error es completamente ruidoso, no es necesario corregirlo.

Siempre y cuando su característica esté de alguna manera correlacionada / informativa con respecto al mapeo que está entrenando para encontrar (o: la pregunta que pretende resolver), debe usar la dimensión de característica adicional incluso si es imprecisa. La mayoría de los algoritmos de aprendizaje automático aprenden parámetros para combinar sus características de todos modos y si hay incertidumbre en sus algoritmos de datos, esto lo recogerá y reducirá la importancia de esa característica.

Editar: si desea construir un modelo bayesiano, puede usar su información (estándar de + 1 / -1) para construir una distribución previa, por ejemplo, age_measure = age_true + noise, con ruido, por ejemplo, distribuido normalmente (centrado alrededor de 0, con std de 1)