¿Cuáles son los principales desafíos en el aprendizaje semi-supervisado?

Según lo veo, hay algunos. La primera y más obvia es cómo aprovechar los datos no supervisados ​​para mejorar el rendimiento en la tarea supervisada asociada.

Tomemos como ejemplo una tarea de clasificación binaria. Tienes N ejemplos de entrenamiento, de los cuales [matemáticas] n << N [/ matemáticas] están etiquetados, y el resto no. El enfoque más directo es simple entrenar a un clasificador en los ejemplos etiquetados [matemáticos] n [/ matemáticos], clasificar los ejemplos restantes (sin etiquetar) y luego capacitar a otro clasificador en los [matemáticos] N [/ matemáticos] ahora "etiquetados" puntos. Como puede imaginar, esto no funciona muy bien, aunque se ha ampliado y, en algunos casos, puede lograr un rendimiento notable.

Un enfoque más atractivo (en mi opinión) es aprovechar los datos no etiquetados para aprender una representación que pueda ser útil para la tarea supervisada. Este es el enfoque adoptado, por ejemplo, [1,2], y esto logra resultados muy prometedores. En este régimen, se convierte en un desafío interesante e importante: cómo orientar los modelos hacia representaciones que sean útiles para la tarea supervisada. Por ejemplo, una buena representación de imágenes podría ser significativamente diferente si estamos tratando de realizar un reconocimiento directo de objetos o si se está utilizando como parte de un sistema posterior como jugar juegos de Atari.

Otro reto interesante es la eficiencia de los datos. Esto se relaciona con un problema estrechamente relacionado llamado aprendizaje de K-shot, donde un modelo intenta aprovechar su capacitación para generalizar rápidamente a una nueva clase. Entonces, por ejemplo, digamos que has entrenado un modelo para clasificar perros y caballos usando un millón de imágenes. Ahora quieres que también distinga a los gatos. ¿Puedes aprovechar la capacitación previa para aprender esto rápidamente también? ¿Cuál es el número mínimo de imágenes que necesita para alimentarlo antes de que pueda obtener un buen rendimiento en esta nueva clase? Esta pregunta se relaciona con la eficiencia estadística de las representaciones internas del modelo y cómo las aprovechamos durante el entrenamiento.

Estas son todas las áreas de investigación abiertas y activas en ML en este momento, y estoy seguro de que hay otros desafíos en los que uno podría pensar.

[1] – [1406.5298] Aprendizaje semi-supervisado con modelos generativos profundos

[2] – [1602.05473] Modelos generativos profundos auxiliares

More Interesting

¿Qué lenguaje de programación se usa para el aprendizaje automático?

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

¿Por qué querríamos intentar aprender una base demasiado completa en codificación dispersa?

¿Cuáles son algunos trabajos de investigación basados ​​en ciencia de datos y aprendizaje automático en los que R se utiliza como lenguaje de programación?

¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?

¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?

En forma de estudios de caso, ¿cómo utilizan las empresas financieras el aprendizaje automático?

¿Cómo funciona el algoritmo EM para un modelo mixto que factoriza según un modelo Naive-Bayes?

¿Debo escribir el código de Random Forest por mi cuenta o usar implementaciones existentes?

¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?

¿Dónde puedo obtener más información sobre la persona en el MIT Media Lab que está trabajando para eliminar el sesgo en el aprendizaje automático?

¿Cuál es una explicación intuitiva de la aproximación de la función de codificación de mosaico en el aprendizaje por refuerzo?

Cómo calcular un proceso de red neuronal artificial

Cómo implementar un modelo entrenado de TensorFlow (solo parte de propaganda directa) en CPP puro

¿Keras admitirá PyTorch como backend en el futuro?