¿Cuál es la definición de una neurona muerta en las redes neuronales artificiales?

Cuando usa ReLU, está usando una función escalonada que se evalúa a 0 cuando la entrada es menor o igual a 0. Debido a esta naturaleza por partes, el gradiente es 0 si la entrada es <= 0, ya que la pendiente aquí es 0. Sin embargo, si cada ejemplo de entrenamiento hace que una determinada neurona tenga un valor negativo (que luego se convierte en 0 después de aplicar ReLU), entonces la neurona nunca se ajustará, ya que no importa qué ejemplo de entrenamiento se seleccione (o qué lote) el gradiente en la neurona será 0. Por lo tanto, la neurona es completamente inútil: genera 0 independientemente de qué ejemplo de entrenamiento se presente, y no importa cuánto entrenamiento, siempre generará 0 (ya que sus pesos nunca cambian; el gradiente siempre es 0 )

En la práctica, una red con activaciones de ReLU a menudo tiene algunas neuronas muertas, pero algunas neuronas muertas no causarán demasiado problema. Sin embargo, hay demasiadas neuronas muertas y la red neuronal pierde mucho de su poder explicativo. Afortunadamente, hacer un seguimiento de las neuronas muertas no es terriblemente difícil.

Como mencionó Tapabrata, el uso de ReLU con fugas resuelve el problema de las neuronas muertas.

Una neurona muerta en el término de la red neuronal artificial es una neurona que, durante el entrenamiento, es eliminada del múltiple de datos de entrenamiento y, por lo tanto, nunca se activa durante el entrenamiento.

Esto hace imposible que esa neurona actualice su peso ya que los derivados para esos respectivos pesos serían muy pequeños o cero. Los errores no se propagarían a través de una neurona muerta, lo que afectaría a otras neuronas de la red.

Esto normalmente sucede para las ReLU porque estas neuronas pueden apagarse por completo y si sucede que ningún dato en el conjunto de entrenamiento los despierta, permanecerían muertos durante todo el proceso de entrenamiento. Las ReLU con fugas resuelven este problema al tener un valor de fuga distinto de cero que ayuda a las neuronas a eventualmente volver al colector de datos.

Espero que esto ayude.

Supongo que se refiere a las neuronas que usan la función de activación ReLU. Esta “neurona muerta” se produce como resultado de la naturaleza fragmentaria de relu que hace que el gradiente se convierta en 0 cuando es negativo y, por lo tanto, básicamente nunca se dispara. En la práctica, este efecto no parece afectar la precisión con algunas especulaciones de que mata las neuronas “inútiles” y evita el sobreajuste. Para combatir esto, se ha propuesto un relu permeable que simplemente agrega una ligera pendiente negativa a la región negativa con mejoras menores.

Una neurona que no puede activarse, es decir, no contribuye en nada a la extracción o clasificación de características.

En la práctica, cuando ve que un mapa de características es casi cero, sin importar qué tipo de entrada alimente, es muy probable que haya una neurona muerta.

More Interesting

¿Cuál es la definición de Inteligencia Artificial y los dominios de la Inteligencia Artificial?

¿Tiene algún valor considerar las posibles consecuencias filosóficas (y éticas) del surgimiento / desarrollo de la Inteligencia Artificial?

¿Cuál es el camino para ser un experto en inteligencia artificial? ¿Qué necesito para aprender IA paso a paso desde el principio?

¿Qué tan lejos estamos del punto en que la IA podrá crear software?

¿Cómo es el día de trabajo de un ingeniero de investigación de IA?

¿Qué empresas están trabajando en inteligencia artificial en Washington DC?

¿Qué vino primero, la inteligencia general artificial o los seres humanos?

¿Cómo funciona un sistema de IA?

¿Cómo se ganan las máquinas de ajedrez más poderosas, dado que juegan con casi la misma fuerza y ​​habilidades de procesamiento?

¿Qué piensas sobre Sophia, la inteligencia artificial más inteligente y desarrollada, y su broma sobre la destrucción del mundo?

¿Cómo afectará la IA a la industria del entretenimiento?

Al ajustar la inteligencia artificial, ¿ajusta la forma en que maneja la información o la información misma?

¿Cómo podemos medir la inteligencia general de la inteligencia artificial profunda?

¿La inteligencia artificial / automatización resultará en un descontento social sustancial debido a la falta de disponibilidad de los trabajos y habilidades adecuados en el futuro?

¿Alguna vez será posible que la inteligencia artificial escriba entretenimiento?