Gracias por el A2A.
La no convexidad se debe al uso de una función de activación no lineal en una de las capas. Por lo tanto, no es una función de cuántas capas tiene la red. Por ejemplo, una red con una sola capa oculta con una función de activación no lineal, como una función sigmoidea, tendrá una superficie de error no convexa, mientras que una red de 3 capas con todas las capas lineales será convexa. De hecho, el último caso es análogo a la regresión logística (si está utilizando un softmax para la capa de salida). Esto debería ser bastante simple de ilustrar si solo observa los coeficientes de las entradas después de realizar un pase directo en una red determinada.
Creo que una pregunta más interesante es cómo cambia la complejidad de la superficie no convexa a medida que agregamos más capas no lineales. Hablando empíricamente, sabemos que las redes profundas a menudo funcionan mejor que las redes superficiales. Esto podría sugerir que las redes más profundas inducen una superficie de error con menos mínimos locales potenciales para que el proceso de optimización se atasque. Hubo un artículo publicado recientemente que analizaba los beneficios de las redes más profundas, así que intente investigar en Google si usted ‘ Estás interesado (lo siento, no recuerdo el nombre del periódico).
- ¿Cuál es la diferencia entre estos documentos de Collobert y Weston: Una arquitectura unificada para PNL (2008) vs. Aprender PNL desde cero (2011)?
- Tengo problemas para escribir trabajos de investigación. ¿Qué tengo que hacer?
- ¿Cómo estudian / investigan las personas sobre cosas / utilizando métodos que son ilegales?
- ¿Cuánto tiempo llevará desarrollar un nuevo lenguaje desde C?
- ¿Cómo puedo buscar solo documentos de transacciones IEEE?