Aprendizaje automático: ¿qué significa “abandono en el cerebro con respecto a todas las entradas, mientras que abandono en una red convolucional funciona con respecto a cada unidad individual”?

Para comenzar, explicamos brevemente la regularización del abandono en las redes neuronales.

La estructura de datos de una red neuronal es un gráfico dirigido donde cada nodo (también conocido como unidad) representa un sesgo, mientras que cada borde representa un peso. Entonces, si tiene la unidad [matemática] y [/ matemática] con sesgo [matemática] b [/ matemática] y en los bordes [matemática] e_1, e_2, e_3 [/ matemática] con pesos [matemática] w_1, w_2, w_3 [/ math], entonces, cuando las señales que entran en [math] y [/ math] a lo largo de [math] e_1, e_2, e_3 [/ math] son ​​[math] x_1, x_2, x_3 [/ math] respectivamente, el la salida de [math] y [/ math] es [math] w_1 x_1 + w_2 x_2 + w_3 x_3 + b [/ math].

El problema que la regularización del abandono intenta abordar tiene su origen en el hecho de que las unidades de la red están arregladas en la gran mayoría de los algoritmos, es decir, usted predefine la estructura de la red y su propagación hacia atrás aprende los pesos y el sesgo. . El problema resultante es que los resultados del aprendizaje pueden ajustarse en exceso a la estructura de la red, aprendiendo a la fuerza los pesos y el sesgo en los bordes y las unidades, todo al mismo tiempo, lo que posiblemente provoque que algunos de estos parámetros se adapten de manera conjunta a los patrones (intuitivamente, algunos pesos convergen hasta cierto punto porque dependen demasiado de otros pesos que convergen en sus valores).

El objetivo intuitivo de la regularización de abandono es aproximar el siguiente concepto: ignorar las unidades y sus pesos asociados por una probabilidad [matemática] p [/ matemática] para una muestra de entrenamiento particular, entrenar con propagación hacia atrás, repetir (ignorar algún otro conjunto aleatorio de nodos, luego entrenar) en cada una de las otras muestras de entrenamiento, y luego promediar los pesos en todas estas estructuras modificadas al hacer predicciones en nuevas muestras.

La deserción en el cerebro funciona con respecto a todas las entradas.

Esta es una cita desconcertante. Seguí adelante y encontré el artículo del que estás citando. Mi mejor conjetura es que el autor se está refiriendo al hecho de que está comparando el disparo de las neuronas con la regularización, que en el caso general, después de que la neurona se dispara una o dos veces, es posible que no vuelva a dispararse de inmediato, incluso si se despolariza a su umbral potencial. . * Editar * Como señaló Youssef Kashef en el comentario, esta propiedad se llama período refractario neuronal (fisiología).

Por lo tanto, mientras que en las redes neuronales el abandono se aplica a unidades individuales en la red que tienen alguna probabilidad de ser ignoradas durante el entrenamiento, las neuronas en el cerebro tienen la posibilidad de no dispararse inmediatamente después de disparar desde recibir entradas.

More Interesting

¿Qué quieres decir con aprendizaje profundo?

¿Es posible verificar manualmente si los vectores de soporte siguen hiperplanos teóricos en SVM usando un núcleo de base radial?

¿Qué cosas asombrosas se pueden hacer con el aprendizaje automático?

Codificación dispersa: ¿cuál es la implementación paso a paso para la codificación dispersa? ¿Qué representa la norma l0 / norma l1 / regularización?

¿Qué tipo de estructuras de datos podrían usarse en un proyecto de procesamiento de lenguaje natural?

Inteligencia artificial: ¿Qué tan importante es el aprendizaje de transferencia / transferencia profunda?

¿Qué les falta a las redes de confrontación para que realmente modelen una representación del mundo?

¿Por qué se usa Python para el aprendizaje profundo si es tan lento?

¿Cuál es el alcance de AI / ML en la arquitectura de la computadora?

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?

¿Cuál es la diferencia entre una cadena de Markov recurrente y una cadena de Markov absorbente?

¿Por qué decimos que la máquina de vectores de soporte y muchas otras técnicas de aprendizaje automático tienen un supuesto subyacente de iid?

¿Qué es la factorización de bajo rango y cuáles son sus aplicaciones en el aprendizaje automático?

¿Puedo usar videos de YouTube para hacer aprendizaje automático comercial?

¿Tiene sentido el uso de bosques aleatorios en los datos financieros si se supone que los rendimientos dependen en serie (es decir, que los rendimientos actuales dependen de los rendimientos pasados)?