La divergencia contrastante es una receta para entrenar modelos gráficos no dirigidos (una clase de modelos probabilísticos utilizados en el aprendizaje automático). Se basa en una aproximación del gradiente (una buena dirección de cambio para los parámetros) del log-verosimilitud (el criterio básico que la mayoría de los algoritmos de aprendizaje probabilístico intentan optimizar) basado en una cadena corta de Markov (una forma de tomar muestras de modelos probabilísticos ) comenzó en el último ejemplo visto. Se ha popularizado en el contexto de las máquinas de Boltzmann restringidas (Hinton y Salakhutdinov, 2006, Science), siendo este último el primer y más popular bloque de construcción para algoritmos de aprendizaje profundo. Su pseudocódigo es muy simple; puedes ver un ejemplo de implementación en el tutorial de aprendizaje profundo allí (en python):
http://deeplearning.net/tutorial…
Puede encontrar más detalles matemáticos en numerosos artículos, comenzando con lo anterior, o en el artículo / libro de revisión que escribí (sección 5.4), descargable desde
- ¿Cuál es el mejor método de extracción de características para OCR en texto chino escrito a mano?
- ¿Qué es exactamente el sobreajuste? ¿Por que sucede? ¿Cómo afecta a mi modelo?
- ¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?
- ¿Qué debo hacer para aprender el aprendizaje profundo, especialmente usarlo para resolver problemas?
- Cómo detectar regiones de texto solo de documentos escaneados
http://www.iro.umontreal.ca/~ben…