¿Qué es la divergencia contrastante?

La divergencia contrastante es una receta para entrenar modelos gráficos no dirigidos (una clase de modelos probabilísticos utilizados en el aprendizaje automático). Se basa en una aproximación del gradiente (una buena dirección de cambio para los parámetros) del log-verosimilitud (el criterio básico que la mayoría de los algoritmos de aprendizaje probabilístico intentan optimizar) basado en una cadena corta de Markov (una forma de tomar muestras de modelos probabilísticos ) comenzó en el último ejemplo visto. Se ha popularizado en el contexto de las máquinas de Boltzmann restringidas (Hinton y Salakhutdinov, 2006, Science), siendo este último el primer y más popular bloque de construcción para algoritmos de aprendizaje profundo. Su pseudocódigo es muy simple; puedes ver un ejemplo de implementación en el tutorial de aprendizaje profundo allí (en python):

http://deeplearning.net/tutorial…

Puede encontrar más detalles matemáticos en numerosos artículos, comenzando con lo anterior, o en el artículo / libro de revisión que escribí (sección 5.4), descargable desde

http://www.iro.umontreal.ca/~ben…

Me gusta la descripción del CD de Geoff Hinton: lo llamó “el Algoritmo de Microsoft:” Pregunta, “¿a dónde quieres ir hoy?” y luego no te deja ir allí …

La explicación anterior es excelente y, seguramente, autorizada. Sin embargo, permítanme referirme a otro más. Particularmente me gusta el campo / antorcha / metáfora de luz en él.

More Interesting

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

Cómo calcular el gradiente W en una red neuronal

¿Qué algoritmos son los mejores para el filtrado de spam? ¿Cómo deberían implementarse?

¿Debo usar un cursor o usar el paquete R directamente?

¿Por qué algunas personas confunden las estadísticas con el aprendizaje automático?

¿Debo hacer un gran proyecto de investigación de aprendizaje profundo con mi propio dinero (y tiempo), sin que me paguen, solo para que alguien pueda contratarme debido al trabajo?

¿Cuál es la diferencia entre la red neuronal profunda y la factorización de matriz profunda?

¿Se puede utilizar el análisis semántico latente para la clasificación de documentos?

¿Cuál es el truco del núcleo?

¿Cuál es el mejor lenguaje de programación para el aprendizaje automático? ¿Qué idioma es mejor para programar microcontroladores y otras partes de hardware?

¿Cuáles son las mejores fuentes para aprender el aprendizaje automático y el procesamiento del lenguaje natural?

¿Cuáles son las mejores conferencias y revistas sobre aprendizaje automático?

¿Cuáles son algunos ejemplos de inferencia?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

¿Cuál es una explicación simple de un espacio de características multidimensionales?