¿Cómo pueden los métodos bayesianos ayudar a acelerar el entrenamiento de las redes neuronales profundas?

La aplicación de los métodos bayesianos a las redes neuronales tiene una rica historia en el aprendizaje automático. El objetivo de las redes neuronales bayesianas es descubrir la distribución posterior completa sobre los pesos de la red para capturar la incertidumbre, actuar como un regularizador y proporcionar un marco para comparación de modelos. Sin embargo, la parte posterior completa es intratable para la mayoría de las formas de redes neuronales, y requiere una inferencia aproximada costosa o una simulación de Monte Carlo en cadena de Markov. Más recientemente, se ha considerado la inferencia bayesiana completa o aproximada para pequeñas piezas de la arquitectura general.

Alternativamente, se desarrollan enfoques variacionales, donde se usa una red neuronal en una aproximación variacional a la distribución posterior sobre las variables latentes de una red neuronal generativa dirigida.

Related Content

Si tuviera un algoritmo muy rápido y distribuido para resolver el problema 3-SAT, ¿cuáles son los mercados relevantes para este algoritmo? ¿Para qué industrias sería relevante?

¿Cuál es la propiedad unidireccional de las funciones hash criptográficas?

¿Cuáles son las ventajas del desenfoque gaussiano, el desenfoque mediano y el filtro bilateral?

¿Cómo difieren los roles de lingüistas e informáticos en el campo de la PNL?

¿Cuáles son algunos de los mejores y más gratificantes cursos de CS y ECE en Illinois?

¿Cómo funcionan las redes de transformadores espaciales?

Si eventualmente se desarrolla una tecnología exitosa para cambiar la identidad de género, ¿estará disponible para todos o solo para personas trans?

Un uso actual popular para el Análisis Bayesiano en el aprendizaje profundo es la optimización de hiperparámetros. Ajustar hiperparámetros es más un arte que una ciencia. La optimización bayesiana le permite a uno moverse en la dirección de la automatización del ajuste de hiperparámetros como se describe en http://arxiv.org/pdf/1206.2944.pdf , y para ver un ejemplo de una biblioteca que implementa estos métodos, consulte JasperSnoek / spearmint.

Sathish Prabhu V

El uso de métodos bayesianos es similar al abandono, ralentizan el aprendizaje inicialmente durante el entrenamiento. Esto probablemente se deba a la mayor incertidumbre impuesta durante el aprendizaje, lo que resulta en una mayor exploración del espacio de parámetros. Sin embargo, una mayor incertidumbre evita el sobreajuste y, finalmente, da como resultado un mejor rendimiento en las pruebas.

Sathish Prabhu V

Maneja los aspectos de protección contra la suplantación de identidad del manejo del formulario de comentarios. Esta clase contiene los campos content_type y object_pk que apuntan al objeto al que se adjunta el comentario, junto con una marca de tiempo y un hash de seguridad de todos los datos del formulario. Juntos, la marca de tiempo y el hash de seguridad aseguran que los spammers no puedan “reproducir” los envíos de formularios y lo llenen de comentarios.

Chunyuan Li

More Interesting

¿Desde cuándo los procesadores de doble núcleo se volvieron comunes?

Semiótica: ¿Por qué Searle no estaría convencido por la verdadera "inteligencia" de cualquier máquina que pase la prueba de Turing?

¿Cuál es la mejor aplicación para compartir archivos grandes en Android?

¿Por qué se basan los índices 1 de Matlab?

¿Cuál es el mejor equilibrador de carga de software de código abierto para llamadas RPC?

Estoy empezando con un proyecto y quiero ponerme al día con los últimos avances. A veces termino pasando horas con un periódico y no lo entiendo. ¿Cuáles son algunos buenos métodos para leer un trabajo de investigación en informática?

¿Por qué el disco mismo y no la computadora intentan decodificar discos corruptos y corregir errores?

¿Cuál es el algoritmo al dominar un proyecto multipista? ¿Compresión-ecualización-reverberación u otro orden?

Como persona del campo de la medicina interesada en la investigación de inteligencia artificial, ¿cuál es la mejor manera de aprender al respecto?

¿Vale la pena tomar CS 153 (compiladores) en Harvard?

¿Cuáles son algunos problemas interesantes y no resueltos en sistemas distribuidos?

¿Debo comprar o construir un sistema informático para satisfacer mis necesidades?

¿El cifrado de archivos protege del ransonware?

¿Sobrescribir los datos guardados con una copia guardada desde una unidad flash afecta la calidad del guardado y este guardado eventualmente se corromperá si este proceso se repite?

¿Debo solicitar una pasantía de CS incluso si no cumplo con algunos o todos los requisitos?

Web Analytics