¿Cuál es la mejor manera de manejar un modelo multitarea si las etiquetas de datos de capacitación tienen NA, es decir, no se analizaron todas las muestras para todas las tareas?

Algunas estrategias que podría considerar:

Uno contra el descanso
Implemente cuatro clasificadores separados del mismo tipo. Cada clasificador predice una etiqueta. Para entrenar a un clasificador simplemente necesita eliminar los valores de NA de la etiqueta en cuestión. En el momento de la predicción, predeciría la clase que recibió el puntaje de confianza más alto de su clasificador.

Pro: fácil de implementar.
Con: las escalas de los valores de confianza pueden diferir para cada clasificador, lo que lleva a un sesgo.

Imputación
Use la agrupación k-means para predecir las etiquetas que faltan. Para cada grupo, impute las etiquetas que faltan con el modo de la etiqueta en ese grupo. Luego puede usar un único clasificador que sea capaz de clasificar en varias clases, como los vecinos más cercanos k, los bayes naïve, los árboles de decisión o las redes neuronales.

Pro: un modelo.
Con: la inclusión de etiquetas imputadas reduce la precisión del modelo final.

Eliminar NA
Descarte cada fila que no tenga un conjunto completo de etiquetas. Nuevamente, puede construir un modelo usando un solo clasificador multiclase.

Pro: Se evitan los problemas asociados con las dos estrategias mencionadas.
Con: funciona mal si el tamaño de la muestra es pequeño.

Probablemente me inclinaría hacia la estrategia de uno contra el resto, pero en la práctica validaría las diferentes estrategias para ver cuál funciona mejor.

More Interesting

¿Puedo usar el algoritmo de aprendizaje automático en mi proyecto de investigación aunque no soy un experto en él?

¿Qué significa 'regresión' en estadística y aprendizaje automático?

Dado lo éticamente y empáticamente incompetentes que son los humanos, ¿cuándo comenzaremos a entrenar el aprendizaje automático en grandes conjuntos de datos de decisiones éticas?

¿Cuál es la diferencia entre la clasificación de vectores de soporte y la regresión? ¿Un regresor de vectores de soporte se comporta como una red neuronal por casualidad?

¿Cuál es el mejor marco de minería de datos?

¿Debo aprender el aprendizaje automático y el desarrollo de aplicaciones de Android simultáneamente? En caso afirmativo, ¿a qué lenguaje (s) de programación debo recurrir?

¿Cuáles son los avances actuales en la ciencia de datos genómicos?

¿Cuál es la relación entre los clasificadores uno contra uno, conjunto y SVM?

Cómo comparar el rendimiento de mis modelos de Deep Learning con puntos de referencia estándar cuando se utiliza el aumento de conjunto de datos

En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?

¿Cómo funcionan AdaGrad / RMSProp / Adam cuando descartan la dirección del degradado?

¿Qué hace que una red neuronal convolucional sea excelente?

¿Qué programa de maestría de aprendizaje automático en UCL debería elegir?

¿Cuáles son algunos buenos textos en MCMC?

¿Cuál es la diferencia entre una curva ROC y una curva de recuperación de precisión? ¿Cuándo debo usar cada uno?