¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

Depende de la aplicación y solo el análisis empírico puede responder correctamente esta pregunta. Si se trata de un problema de clasificación de dígitos Mnist, solo necesita una sola capa, pero Mnist en movimiento requiere más capas para extraer las características de movimiento.

Por cierto, no tiene sentido tener billones de parámetros cuando miles de estos pueden hacer el trabajo.

El número de capas y el número de unidades en una capa para la red neuronal son hiperparámetros muy importantes e incluso un pequeño cambio en estos puede afectar mucho el rendimiento de ANN.

Hay dos formas de establecer estos hiperparámetros :

Ajustar muchos de los valores de forma inteligente. He respondido tal enfoque aquí.
Aprenda los hiperparámetros también, es decir, deje que la red decida estos números por sí misma. Vankatesh Babu ha publicado [1,2] pocas metodologías de aprendizaje en esta dirección. Todavía es un área abierta y hay mucho alcance en el dominio de la compresión del modelo.

Espero que esto ayude.

Referencias

[1] [1511.05497] Aprendiendo arquitecturas de redes neuronales usando Backpropagation

[2] [1611.06694] Entrenamiento de redes neuronales dispersas

Aprendizaje automáticoAprendizaje profundoinformáticasRedesRedes neuronales artificiales

¿Cuáles son algunos de los problemas de aprendizaje automático (nivel introductorio) que un estudiante de economía puede modelar con los datos disponibles para una tesis de licenciatura?

¿Cómo se usa la pérdida de peso para la regularización en las redes neuronales?

¿Por qué las redes de confrontación generativas son tan creativas?

¿En qué tipo de situaciones debemos emplear las redes neuronales recurrentes de Vanilla en lugar de LSTM?

¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?

¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?

Esta pregunta fue explorada en [1605.07146] Redes residuales anchas

“Se demostró que las redes residuales profundas pueden escalar hasta miles de capas y aún así tienen un rendimiento mejorado. Sin embargo, cada fracción de un porcentaje de precisión mejorada cuesta casi duplicar el número de capas, por lo que entrenar redes residuales muy profundas tiene el problema de disminuir la reutilización de características, lo que hace que estas redes sean muy lentas para entrenar. Para abordar estos problemas, en este artículo llevamos a cabo un estudio experimental detallado sobre la arquitectura de los bloques de ResNet, en base al cual proponemos una nueva arquitectura donde disminuimos la profundidad y aumentamos el ancho de las redes residuales. Llamamos a las estructuras de red resultantes redes residuales anchas (WRN) y mostramos que estas son muy superiores a sus contrapartes delgadas y muy profundas comúnmente utilizadas. Por ejemplo, demostramos que incluso una simple red residual de 16 capas de profundidad supera en precisión y eficiencia a todas las redes residuales profundas anteriores, incluidas las redes de mil capas de profundidad, logrando nuevos resultados de vanguardia en CIFAR, SVHN , COCO y mejoras significativas en ImageNet. “

Haohan Wang

El segundo caso, teóricamente.

La ganancia de una capa adicional es exponencial a la ganancia de unidades adicionales en una capa.

Consulte la Sección 2 de Learning Deep Architectures for AI

o la Sección 3.2 de Sobre el origen del aprendizaje profundo. (descargo de responsabilidad: este es mi trabajo 🙂)

Haohan Wang