Lo haría solo si el algoritmo de aprendizaje no manejara los valores faltantes correctamente.
El problema es que está asumiendo que sus atributos son independientes entre sí; en otras palabras, P (valor perdido | otros atributos) = P (valor perdido). Si ese fuera el caso en general, entonces Naive Bayes se desempeñaría muy bien en sus datos y no necesitaría un algoritmo de aprendizaje sofisticado.
Por ejemplo, considere una tarea de aprendizaje simple: aprender XOR. La tabla de la verdad, solo para recordarle es:
- ¿Todavía vale la pena hacer MS en aprendizaje automático clásico o minería de datos sin un módulo en profundidad sobre aprendizaje profundo que está en tendencia?
- ¿Qué son las preguntas de la entrevista de Big Data?
- Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante
- Cómo guardar sus datos en R
- ¿Puedo ser arquitecto y científico de datos al mismo tiempo?
ABX
0 0 0
0 1 1
1 0 1
1 1 1
Y ahora digamos que inyecta aleatoriamente “valores perdidos” en la columna B al azar y tiene algunas repeticiones, por ejemplo
0 0 0
0? 0 0
0 1 1
1 0 1
1 1 0
1 1 0
1? 1
Entonces ahora lo reemplazamos con la mediana, así que ahora tenemos:
0 0 0
0 1 0
0 1 1
1 0 1
1 1 0
1 1 0
1 1 1
Y eso es esencialmente imposible de aprender para cualquier clasificador, porque no tiene, por ejemplo, ninguna forma de obtener una solución 100% precisa porque está obteniendo información contradictoria: en un caso 0,1 da 0 y en un caso da 1. Además, en dos los casos 1,1 dan 0 y un caso 1,1 da 1. A veces el alumno lo hará bien y en otros lo hará mal, dependiendo del sesgo del clasificador. La negrita indica los datos ahora contradictorios.
Pero si modela los valores faltantes correctamente, aún puede aprender la solución correcta fácilmente, ya que el alumno detectará que puede sustituir los valores faltantes correctamente y obtendrá los resultados correctos.
Los árboles de decisión, por ejemplo, comerían el ejemplo anterior para el desayuno manejando de manera inteligente los valores faltantes y suponiendo que son lo que sea local mediana en lugar de la global.