Eliminemos la primera posibilidad, que tiene expectativas irrazonables del algoritmo que está tratando de usar. Ejemplos incluyen:
- Estás utilizando datos etiquetados, donde falta una clase completa de etiquetas de los datos de entrenamiento
- Está utilizando cualquier tipo de datos donde los datos faltantes son muy diferentes de los datos de entrenamiento.
- Está utilizando cualquier tipo de datos donde los datos faltantes son mucho más abundantes que los datos de entrenamiento e incluye datos como los ejemplos anteriores
La respuesta en estos casos es “cualquier algoritmo de aprendizaje automático”, por razones que deberían ser bastante obvias. No se puede realizar previsiblemente en datos desconocidos que son muy diferentes de lo que se aprende.
Salvo expectativas irrazonables, cualquier algoritmo de ML debe funcionar razonablemente bien en los datos faltantes. ¿Por qué? El objetivo de utilizar un algoritmo ML es que pueda generalizarse a nuevos datos. Desea poder hacer inferencias sobre nuevos datos.
- ¿Cómo es útil la econometría tradicional como la que se enseña en los programas de posgrado en economía para los científicos de datos en la práctica?
- ¿Qué tan básicos son los datos en Uber?
- Tengo más de 4 años de experiencia en el desarrollo de .net, pero ahora quiero cambiar a Big Data. ¿Dónde puedo aprender big data y obtener trabajo?
- ¿Cómo se puede pasar del nivel principiante avanzado al nivel intermedio en ciencia de datos?
- ¿Cuál es el mejor instituto en Mumbai para hacer ciencia de datos y certificación de big data?
Dicho esto, cada algoritmo de máquina tiene puntos ciegos (véase el teorema de “no hay almuerzo gratis”). El uso de un algoritmo que no es adecuado para su tarea cae bajo el paraguas de “expectativas irracionales”.