Es bien sabido que más datos = modelos de mejor calidad en el aprendizaje profundo (obviamente hasta cierto límite, pero la mayoría de las veces no tenemos tanta información).
Pero obtener datos etiquetados es costoso. Si desea entrenar a un modelo para identificar aves, puede configurar un montón de cámaras para tomar fotografías de aves automáticamente. Eso es relativamente barato.
Contratar personas para etiquetar esas fotos es costoso.
- ¿Qué hay de nuevo con Wasserstein GAN?
- ¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?
- ¿Qué es un "conjunto típico" en la estimación de densidad de probabilidad para la inferencia bayesiana?
- ¿Qué es una comprensión intuitiva del análisis factorial?
- ¿Qué importancia tienen las estructuras de datos y los modelos gráficos para el aprendizaje automático?
¿Qué sucede si tiene una gran cantidad de imágenes de pájaros, pero solo contrata personas para etiquetar un pequeño subconjunto de las imágenes?
Resultó que, en lugar de simplemente entrenar a los modelos en el subconjunto etiquetado, puede entrenar previamente el modelo en todo el conjunto de entrenamiento, antes de ajustarlo con el subconjunto etiquetado, y así obtendrá un mejor rendimiento.
Eso es aprendizaje semi-supervisado. Te ahorra dinero.