Algunas estrategias que podría considerar:
Uno contra el descanso
Implemente cuatro clasificadores separados del mismo tipo. Cada clasificador predice una etiqueta. Para entrenar a un clasificador simplemente necesita eliminar los valores de NA de la etiqueta en cuestión. En el momento de la predicción, predeciría la clase que recibió el puntaje de confianza más alto de su clasificador.
Pro: fácil de implementar.
Con: las escalas de los valores de confianza pueden diferir para cada clasificador, lo que lleva a un sesgo.
- En el aprendizaje profundo, ¿cómo convertir una oración o documento en un vector binario (flujo de 0 y 1)?
- Intuitivamente, ¿cómo afecta el tamaño del mini lote al rendimiento del descenso de gradiente (estocástico)?
- Cómo aplicar mis conocimientos de aprendizaje automático para invertir en el mercado de valores indio
- ¿Podrían las entradas del algoritmo de entrenamiento Perceptron tener diferentes tipos?
- ¿Cuál es el punto de ejecutar un modelo de regresión logística antes de un árbol de decisión?
Imputación
Use la agrupación k-means para predecir las etiquetas que faltan. Para cada grupo, impute las etiquetas que faltan con el modo de la etiqueta en ese grupo. Luego puede usar un único clasificador que sea capaz de clasificar en varias clases, como los vecinos más cercanos k, los bayes naïve, los árboles de decisión o las redes neuronales.
Pro: un modelo.
Con: la inclusión de etiquetas imputadas reduce la precisión del modelo final.
Eliminar NA
Descarte cada fila que no tenga un conjunto completo de etiquetas. Nuevamente, puede construir un modelo usando un solo clasificador multiclase.
Pro: Se evitan los problemas asociados con las dos estrategias mencionadas.
Con: funciona mal si el tamaño de la muestra es pequeño.
Probablemente me inclinaría hacia la estrategia de uno contra el resto, pero en la práctica validaría las diferentes estrategias para ver cuál funciona mejor.