¿Por qué es una red neuronal, y en general una red profunda, no convexa?

Gracias por el A2A.

La no convexidad se debe al uso de una función de activación no lineal en una de las capas. Por lo tanto, no es una función de cuántas capas tiene la red. Por ejemplo, una red con una sola capa oculta con una función de activación no lineal, como una función sigmoidea, tendrá una superficie de error no convexa, mientras que una red de 3 capas con todas las capas lineales será convexa. De hecho, el último caso es análogo a la regresión logística (si está utilizando un softmax para la capa de salida). Esto debería ser bastante simple de ilustrar si solo observa los coeficientes de las entradas después de realizar un pase directo en una red determinada.

Creo que una pregunta más interesante es cómo cambia la complejidad de la superficie no convexa a medida que agregamos más capas no lineales. Hablando empíricamente, sabemos que las redes profundas a menudo funcionan mejor que las redes superficiales. Esto podría sugerir que las redes más profundas inducen una superficie de error con menos mínimos locales potenciales para que el proceso de optimización se atasque. Hubo un artículo publicado recientemente que analizaba los beneficios de las redes más profundas, así que intente investigar en Google si usted ‘ Estás interesado (lo siento, no recuerdo el nombre del periódico).

La convexidad de una red neuronal se debe a sus funciones de activación no lineal. Para ser más específicos, una función de activación no lineal corresponde a una optimización no convexa, y el número de capas no está directamente conectada a esto: todas las redes sin capa oculta son convexas, pero no todas las redes de varias capas son no convexo

More Interesting

Cómo encontrar un tema de investigación en informática adecuado para estudiantes universitarios

¿Cuáles son algunos de los problemas de investigación interesantes en la criptografía umbral?

¿Cuáles son algunos otros temas de investigación en inteligencia artificial además de la máquina / aprendizaje profundo?

En la investigación de CS, ¿cuál es la relación de pensamiento a implementación?

Cómo convertirse en un buen investigador en informática

¿Es cierto que Simon Peyton Jones no tiene un doctorado, pero aún así aconseja a los estudiantes de doctorado?

¿Cuáles son las pruebas más importantes que uno debe estudiar en el campo de la informática teórica?

¿Cómo calificaría el Instituto Nacional de Investigación en Informática y Control en términos de calidad de la investigación y otros parámetros importantes en comparación con otros institutos mundiales como el MIT, Stanford, etc.?

¿Qué programa universitario de ciencias de la computación hace que sus estudiantes escriban más código?

¿Cuáles son los temas de investigación más importantes en el campo de Big Data?

¿Cuáles son los documentos más influyentes en el mundo del big data? ¿Por qué?

¿Qué área de investigación debo elegir? Tengo opciones entre "Semántica de lenguajes de programación" y "Algoritmos y criptografía" de investigación para mi tesis de maestría, y estoy extremadamente confundido en las circunstancias.

¿Cómo difieren la optimización bayesiana y el aprendizaje activo?

¿Cuáles son los pasos para hacer captura de movimiento?

¿Qué es el Protocolo de separación de localizador / identificador (LISP) en términos simples, con las terminologías en eso?