¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

Respuesta corta: si la red es más profunda, lo que significa un gran número de unidades, entonces mantener pesos muy pequeños generalmente ayuda a lidiar con los problemas de desaparición o explosión de gradientes.

Decir,

[matemáticas] Z = w_1 x_1 + w_2 x_2 +…. + w_n x_n [/ matemáticas]

Si, n es enorme, entonces mantenga [math] w_i [/ math] realmente pequeño. Esto ayudará a z, a no explotar o volverse demasiado pequeño.

Otra cosa que vale la pena explorar es mantener la varianza de los pesos de la siguiente manera:

[math] varnce = {1 \ over n} [/ math], donde n es el número de características. Juega con él, si lo estás usando con 2 / n.

Para otras funciones de activación como Tanh, una inicialización de Xavier debe reemplazar el 1 / n con [math] {\ sqrt {1 \ over n}} [/ math] o [math] {\ sqrt {2 \ over n}} [/matemáticas]. Esto también se llama inicialización de Xavier.

Leer literatura genial como esta podría ayudarlo a desarrollar mejores intuiciones y pasar de la discusión teórica a las pruebas listas para producción.

Aquí hay un análisis interesante de Siddharth Kumar.

Aprendizaje automáticoAprendizaje profundoRedes neuronales artificiales

¿Cuál es la diferencia entre el aprendizaje inductivo y transductivo?

¿Cuáles son los algoritmos más populares utilizados en redes neuronales convolucionales?

¿Hay alguien aquí que pueda darme una lib correcta para R-Tree en Java?

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

¿Es cierto que las redes neuronales son más rápidas en las mujeres?

¿Qué es el aprendizaje automático y la IA?

A nivel de las neuronas, sus matrices de peso (W) deben inicializarse con números aleatorios, mientras que para los vectores de sesgo (b), puede salirse con la inicialización de ceros.
Cuando sus matrices de peso están llenas de números muy grandes (y grandes pueden ser relativos, dependiendo de los valores absolutos de sus matrices de entrada), puede encontrar que las funciones de activación se sobreexcitan, con el resultado de que tiene una convergencia lenta

Estas son dos consideraciones que puedo pensar en el contexto de la inicialización de peso y sesgo para las redes neuronales.

Omar Rafique

Inicializar los pesos no es una emisión en redes neuronales. Simplemente inicialízalos al azar con algunos valores pequeños. Los valores finales de los pesos se establecerán cuando se complete la propagación inversa.
Opto por no perder el tiempo desarrollando un algoritmo.

Tarry Singh

More Interesting

¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?

¿Cuál es la entrada para un clasificador Naive Bayes?

¿De qué maneras alguien puede obtener ingresos del aprendizaje automático (trabajo por cuenta propia)?

¿Cuál es la diferencia entre el aprendizaje por refuerzo y la optimización de caja negra?

¿Hay alguna métrica de evaluación para chatbots?

¿Qué se sabe sobre la eficiencia de la agrupación espectral en caso de que los datos no estén completamente conectados?

¿De qué manera la empresa promedio utilizará tecnologías de visión por computadora dentro de 20 años?

¿Cuál es el beneficio de usar la función softmax en la última capa de DNN? ¿Cuál es la relación entre la entropía cruzada y las funciones de pérdida?

¿Cómo calcula Google los sinónimos de los términos en una consulta de búsqueda?

¿Cuáles son algunas posibles aplicaciones de aprendizaje profundo que son bastante novedosas?