¿Cómo se entrenan las redes estocásticas generativas?

Hay muchas formas en que las redes neuronales pueden representar una distribución de probabilidad condicional. En los experimentos reportados en el documento, es con unidades de salida sigmoideas clásicas, cada una de las cuales representa la probabilidad de que una variable de salida (aquí el bit i-ésimo X_i a reconstruir) tome el valor 1 o 0. En ese caso, el Se supone que los bits aleatorios X_i son condicionalmente independientes, dado X_tilde. Puede elegir otros tipos de distribución (cualquier distribución paramétrica, haciendo que estos parámetros sean una función de las salidas de la red neuronal; aquí la distribución se factoriza Bernoulli, cada uno con probabilidad p_i = sigmoide (a_i), donde a_i son las salidas pre-sigmoideas de la red neuronal)

La red neuronal se entrena como de costumbre, mediante propagación inversa de la probabilidad logarítmica de las salidas (que es lo mismo que la entropía cruzada, en el ejemplo anterior). La única diferencia con las redes neuronales ordinarias (pero de manera similar al abandono) es que el ruido se inyecta en la red neuronal (en las entradas y posiblemente también en unidades ocultas).

Término del laico:

Dios nos da problemas en nuestra vida, de modo que podamos salir de eso y comprender quiénes somos originalmente.

Dios transforma nuestro problema de autoidentificación sin objetivo en uno que sea más similar al problema de búsqueda de solución. Y luego nuestro objetivo es cómo salir del problema, mediante el cual generalmente obtenemos nuestros elementos internos, como fortalezas y debilidades. Por lo tanto, podemos llamarlo como: ” Autoidentificación de problemas “.

Pero Dios sigue una distribución para agregar problemas en nuestra vida. Entonces, lo que aprendemos es ” Autoidentificación condicional “, que debe convertirse en ” Autoidentificación ” mediante una operación estadística basada en la distribución seguida por Dios.

El marco de trabajo de las Redes Estocásticas Generativas se basa en el aprendizaje de dicha operación estadística, donde la ” autoidentificación condicional ” estima nuestra ” autoidentificación “.

Redes estocásticas generativas

La ruta de aprendizaje de Denoising funciona en una filosofía similar, donde los ruidos se inyectan en la red y aprenden cómo hacer ruido, mediante el cual se revela la distribución de datos.

Las redes estocásticas generativas generalizan el autoencoder de eliminación de ruido, donde los ruidos se inyectan no solo en la entrada, sino en cualquier parte del gráfico computacional que predice la distribución de la entrada sin ruido. El entrenamiento se realiza a través de cualquier truco de entrenamiento supervisado.

http://arxiv.org/pdf/1306.1091v3

Los aprendizajes no supervisados ​​se basan principalmente en la máquina de Boltzmann restringida, las variantes de codificador automático y las variantes de codificación dispersas. Pero, las arquitecturas profundas sin supervisión como Deep Belief Network y Deep Boltzmann Machines son más lentas en el entrenamiento conjunto. Además, el modelado de la distribución condicional para variables de alta dimensión con distribución conjunta multimodal compleja, es decir, la salida estructurada es difícil de calcular.

El éxito en el progreso reciente hacia una capacitación supervisada profunda justifica la necesidad de convertir un modelo de producción profundo, generativo, no supervisado, semi-supervisado o estructurado en un modelo supervisado.

El marco de las Redes Estocásticas Generativas es un principio de entrenamiento novedoso para modelos probabilísticos generativos, que se basa en el aprendizaje del operador de transición para una cadena de Markov cuya distribución estacionaria estima la distribución de datos. También:

  • Una alternativa a la máxima probabilidad.
  • Generaliza los codificadores automáticos de denoising. Los codificadores automáticos que aprenden con el ruido inyectado son un caso especial de las redes estocásticas generativas y pueden interpretarse como modelos generativos.
  • Estimación de la distribución de datos subyacente basada en un criterio similar a la eliminación de ruido.
  • La distribución de transición es una distribución condicional, que simplifica el problema de aprendizaje con gradientes que se pueden obtener mediante retropropagación.
  • Crea una cadena de Markov cuyo operador de transición consiste en un muestreo alternativo de una distribución de representación ruidosa y una distribución de reconstrucción de ruido para variables latentes estocásticas.
  • Se pueden utilizar trucos de entrenamiento supervisados: arquitectura convolucional con agrupación máxima para parsimonia paramétrica y eficiencia computacional, impulso para el descenso rápido de gradiente y abandono para evitar la coadaptación de representaciones ocultas.
  • Se puede usar con entradas faltantes, muestreo condicionado en algunas de las entradas y salidas estructuradas.

Un poco más de conocimiento [1–5].

[1] http://arxiv.org/pdf/1503.05571v

[2] https://arxiv.org/pdf/1312.6114v

[3] https://arxiv.org/pdf/1401.4082.pdf

[4] http://arxiv.org/pdf/1602.05110v

Creo que puedes encontrar toda tu respuesta aquí yaoli / GSN.

Y aquí hay algunas discusiones relacionadas: Daily Paper Review: Deep Generative Stochastic Networks Trainable by Backprop (Bengio et al) • / r / MachineLearning. El autor de yaoli / GSN habla mucho.

Además, usa Theano, que fue un muy mal recuerdo para mí.

More Interesting

¿Dónde puedo descargar datos de proyecto disponibles públicamente para entrenar mi red neuronal?

¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?

¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?

¿Qué son las redes neuronales convolucionales?

¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?

Cómo garantizar que la función SIFT sea invariante en perspectiva

¿Cuál es la relación entre IA, aprendizaje automático y ciencias de la computación? ¿Hay especializaciones en IA o aprendizaje automático, o son especializaciones en informática?

¿Cuál es el orden para aprender a usar los campos aleatorios de Markov para el procesamiento de imágenes?

¿Qué es la inteligencia artificial? ¿Cuáles son los sujetos si queremos estudiar inteligencia artificial?

¿Cuál es el método para encontrar la parte no reconocida de los resultados del aprendizaje automático y complementarla para alcanzar el 100%?

¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?

¿Cuál es el alcance del aprendizaje automático en la verificación?

¿Cuál sería un buen enfoque de aprendizaje automático para un bot de comercio de criptomonedas con aproximadamente media docena de parámetros de entrada de estrategia de comercio numérico y una salida numérica (porcentaje de ganancia diaria)? Todos los días el modelo probaría nuevos parámetros.

¿Cómo se puede aprender y dominar un tema?

¿Es posible aplicar la localización de objetos sin tener regiones de caja en la verdad básica?