¿Cuáles son algunas aplicaciones del aprendizaje semi-supervisado?

Es bien sabido que más datos = modelos de mejor calidad en el aprendizaje profundo (obviamente hasta cierto límite, pero la mayoría de las veces no tenemos tanta información).

Pero obtener datos etiquetados es costoso. Si desea entrenar a un modelo para identificar aves, puede configurar un montón de cámaras para tomar fotografías de aves automáticamente. Eso es relativamente barato.

Contratar personas para etiquetar esas fotos es costoso.

¿Qué sucede si tiene una gran cantidad de imágenes de pájaros, pero solo contrata personas para etiquetar un pequeño subconjunto de las imágenes?

Resultó que, en lugar de simplemente entrenar a los modelos en el subconjunto etiquetado, puede entrenar previamente el modelo en todo el conjunto de entrenamiento, antes de ajustarlo con el subconjunto etiquetado, y así obtendrá un mejor rendimiento.

Eso es aprendizaje semi-supervisado. Te ahorra dinero.

Bueno, puede entrenar previamente (como en la respuesta de Matthew), que es un enfoque de aprendizaje de dos fases (una fase no supervisada para construir un modelo generativo, luego una fase supervisada donde los parámetros del modelo generativo se vuelcan en uno supervisado). que posteriormente se ajusta en muestras etiquetadas). Sin embargo, existen alternativas, como el aprendizaje de modelos híbridos, que le permiten explotar los beneficios del entrenamiento previo sin la dificultad. (Algunos ejemplos incluyen: http://www.david-reitter.com/pub …, http://www.aclweb.org/anthology/ … que derivan / se relacionan con un trabajo anterior, http: // mi. eng.cam.ac.uk/~jal62/p …).

En este caso, construye un modelo (en este caso, uno neuronal profundo) en muestras etiquetadas y no etiquetadas al aprender los modelos discriminativos y generativos al mismo tiempo en un entorno de objetivos múltiples. Además, entre otros beneficios, puede rastrear la pérdida supervisada o el error de clasificación (a diferencia del entrenamiento previo en algunos casos) ya que lo que le interesa es ver cómo los aspectos generativos del modelo afectan el rendimiento discriminativo final.

Para responder a la pregunta específica, dado que usted pregunta acerca de las aplicaciones del aprendizaje semi-supervisado, diría que la mayoría de los problemas que implican tener solo un pequeño conjunto de ejemplos etiquetados difíciles de obtener y muchos de ellos sin etiquetar son fáciles de adquirir. Solicitudes candidatas. Esto significaría que podría tomar cualquier tarea supervisada común (como una clasificación o regresión) y plantearla en su forma semi-supervisada.

Por ejemplo, supongamos que posee un corpus de documentos con menos de 1000 muestras que tienen metadatos que pueden usarse para identificar su tema principal y el resto son solo documentos que tienen el texto. Normalmente, todo su corpus / colección está etiquetado, lo que lo convierte en una tarea supervisada normal, pero aquí, le faltan la mayoría de los objetivos supervisados. Incluso hemos visto enfoques más antiguos que obtienen un rendimiento mejorado en este entorno (como un clasificador Naive Bayes semi-supervisado o Naive Bayes construido bajo Maximización de Expectativas).

More Interesting

¿Dónde estará (o podría) estar el Aprendizaje Profundo si la Ley de Moore continúa por otros 10-20 años?

¿Qué es una explicación intuitiva de la estructura de datos del árbol B?

¿Qué es un conjunto de datos desequilibrado?

¿Es útil entrenar a AlphaGo jugando contra sí mismo?

¿Puede ingresar al programa de doctorado CS de nivel superior / siguiente sin publicación, suponiendo que tenga una experiencia de investigación decente?

¿Cuál es un ejemplo básico de aprendizaje automático?

¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?

¿Es la reducción de dimensionalidad igual que la selección de características? ¿Cómo hacer la selección de características usando PCA en R?

¿Qué es la precisión?

Soy un hombre de 25 años que estudió CS, aprendizaje automático y minería de datos para mi maestría. Mi verdadera pasión radica en la música y los viajes. He estado sin trabajo durante 7 a 8 meses, solicito un doctorado en ML y música, y mi papá quiere que consiga un trabajo. ¿Qué debo hacer?

¿Tiene sentido entrenar clasificador para cada clase?

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?

¿En qué año se desplaza una creciente masa de empleos a través de la automatización en los Estados Unidos?

¿Cuáles son las deficiencias del aprendizaje profundo? ¿Cuál es el mayor defecto o limitación del aprendizaje profundo?

¿Cuándo debo aprender tensorflow?