Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

Creo que esta pregunta implica una pequeña confusión sobre lo que es el aprendizaje no supervisado y su relación con la optimización. El descenso de gradiente estocástico (SGD) es un método para minimizar una función sobre algunos parámetros. Puede usar SGD para optimizar cualquier función de pérdida, siempre y cuando sea diferenciable con esos parámetros; al optimizador no le importa si la función de pérdida está supervisada o no.

Las GAN no están supervisadas porque pueden aprender y aprenden de los datos no etiquetados. Por ejemplo, las alimenta sin etiquetar y el generador (con la ayuda del discriminador) aprende una distribución generativa de ellas. Las “etiquetas” que se utilizan son internas: el procedimiento de capacitación sabe qué imágenes fueron generadas por el discriminador / datos y utiliza esa información para capacitar a las redes. Sin embargo, estas no son etiquetas verdaderas en el sentido de que no nos importan. Nuestro objetivo no es entrenar un modelo para distinguir entre imágenes reales y sintetizadas, sino entrenar un modelo para generar imágenes. Las etiquetas verdaderas (por ejemplo, esta imagen es un perro, este es un gato, etc.) no son necesarias para este método, lo que lo convierte en un procedimiento de entrenamiento no supervisado. El uso de un optimizador es irrelevante.

Aprendizaje automáticoPendiente de gradienteRedes

Related Content

¿Cuál es una forma intuitiva de explicar los resultados de la PCA?

¿Cuáles son algunas ideas importantes / brillantes en el aprendizaje automático?

¿Cuál es una explicación intuitiva para el problema de optimización cuadrática?

¿Cómo se pueden usar los modelos ocultos de Markov para reconocer la escritura cursiva?

Visión por computadora: ¿Cuáles son los problemas abiertos para la recuperación de imágenes?

¿Puede proporcionar las tareas que se le han asignado mientras buscaba una maestría en el campo CS?

Estoy en un enrutador con una IP estática. ¿Estoy compartiendo una dirección IP? Fui excluido de un sitio en el que nunca publiqué. ¿Que puedo hacer?

More Interesting

¿Qué es el modelo log-lineal latente con variables latentes y cómo se entrena tal modelo?

¿Cuál es la diferencia entre soft k-means y el algoritmo EM?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

Con la introducción de la inteligencia artificial, ¿podrán las computadoras tener un alto coeficiente intelectual?

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

Cómo calcular gradientes en una red neuronal de avance utilizando matrices

¿Es Siraj Raval el Neil De Grasse Tyson del aprendizaje profundo?

¿Cuál es la mejor manera de encontrar análisis de sentimientos?

¿Por qué no se prueba bien Theano en otros sistemas que no sean Linux?

¿Qué título debo tomar para entrar en la investigación de Deep Learning? (Graduado de CS)

¿Cuáles son los componentes básicos del reconocimiento de voz desde el punto de vista DSP?

Cómo usar el pronóstico de series de tiempo para predecir el tiempo que tomaría realizar alguna tarea

¿Cómo se implementa el aprendizaje profundo en Amazon Go (tiendas de comestibles especiales en las que recoges lo que quieras y luego te vas sin esperar a pagar)?

¿Cómo se usa el aprendizaje automático en la ciencia de los materiales?

¿Es el enlace neuronal una tecnología que podría funcionar?

Web Analytics