En serio, ¿qué inicialización de peso funciona para entrenar redes neuronales?

Hay varios enfoques teóricos para esta pregunta (use Google Scholar para encontrar los documentos relevantes).
Sin embargo, algunos investigadores han encontrado que otros valores producen mejores resultados.

Una forma de reducir el tiempo necesario para entrenar es comenzar con los vectores propios de la entrada. Sin embargo, no he intentado esto, pero si lo usa, es posible que desee dividir los valores por alguna constante.

Lo general que desea hacer es evitar la saturación en sus funciones de salida porque entonces la derivada de las funciones de salida está cerca de 0, lo que limita el aprendizaje en ese peso. Los pesos que consigan esto dependen de su función de salida y del número de entradas en cada capa.
Si no utiliza las neuronas de polarización, puede calcular fácilmente el intervalo apropiado para los pesos dada la cantidad de entradas. Si usa una neurona sesgada, se vuelve un poco más complicada y sugiero prueba y error.

Lo importante aquí es usar diferentes intervalos para inicializar diferentes capas.

Me ha resultado muy útil trazar histogramas de las salidas de todas las capas a intervalos regulares (especialmente antes de comenzar el entrenamiento).

Como puede ver, todas las salidas (excepto el sesgo) se centran alrededor del medio de la función de salida (tanh para los primeros tres y logístico para la última capa). Esto evita la saturación al comienzo del entrenamiento.

También podría ayudarlo a trazar los cambios de peso durante el entrenamiento para determinar buenos puntos de partida. Eso se vería algo así:

Related Content

¿Cómo se relacionan la inteligencia humana y el talento humano?

¿Cómo se sienten los ateos sobre el posible sufrimiento de la inteligencia artificial?

¿Cuáles son las mejores cosas que ha hecho IBM Watson?

¿Por qué imaginamos (y creamos en algunos casos) robots con forma humana?

¿Cómo puede la IA ayudar a la tarea de investigación académica?

¿Cuál es el mejor cable Ethernet para usar en juegos? ¿Por qué es ese el mejor?

¿Mi módem está bajo ataque de virus? Cada vez que abro una página web que no se usa con frecuencia, se abre automáticamente una ventana de redireccionamiento.

No creo que haya una buena respuesta a esta pregunta.

¡Busque el teorema de no almuerzo gratis!

Esencialmente, entrenar una red neuronal es buscar un buen conjunto de pesas. El teorema esencialmente nos dice que si me dices tu algoritmo, ¡entonces puedo encontrar un problema para el cual es una mala estrategia!

Cada problema necesita algunos experimentos para encontrar lo que funciona para él.

Alfred Dominic Vella

More Interesting

¿Cómo es hacer un trabajo por contrato para MIRI?

¿Es el lenguaje C una buena opción para la programación de IA?

¿Cómo comenzó el bombo del chatbot?

¿Cuáles son las aplicaciones económicas de un sistema de inteligencia artificial equivalente al percentil 50?

¿Cómo se hace el software para controlar grandes máquinas y robots? Cual es el proceso

¿Qué algoritmos de aprendizaje automático pueden producir una función de puntuación para medir la "similitud" entre dos objetos?

¿Se puede usar el condicionamiento operante para programar el comportamiento de un robot?

¿Qué asignatura sería mejor para un estudiante de ingeniería elegir entre inteligencia artificial y maestría en nanotecnología?

¿El aprendizaje automático es parte de la inteligencia artificial?

¿Deberíamos tener miedo de la IA?

¿De qué trata el aprendizaje automático?

Cómo crear una IA como Siri o JARVIS

¿Llegará un momento en que los humanos informarán a los robots inteligentes?

¿Por qué el futuro de la IA parece cada vez más distópico ahora, a diferencia de los años 90?

¿La inteligencia artificial superará el juicio humano en cierta medida durante nuestra vida?

Web Analytics