¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

Depende de la aplicación y solo el análisis empírico puede responder correctamente esta pregunta. Si se trata de un problema de clasificación de dígitos Mnist, solo necesita una sola capa, pero Mnist en movimiento requiere más capas para extraer las características de movimiento.

Por cierto, no tiene sentido tener billones de parámetros cuando miles de estos pueden hacer el trabajo.

El número de capas y el número de unidades en una capa para la red neuronal son hiperparámetros muy importantes e incluso un pequeño cambio en estos puede afectar mucho el rendimiento de ANN.

Hay dos formas de establecer estos hiperparámetros :

  1. Ajustar muchos de los valores de forma inteligente. He respondido tal enfoque aquí.
  2. Aprenda los hiperparámetros también, es decir, deje que la red decida estos números por sí misma. Vankatesh Babu ha publicado [1,2] pocas metodologías de aprendizaje en esta dirección. Todavía es un área abierta y hay mucho alcance en el dominio de la compresión del modelo.

Espero que esto ayude.

Referencias

[1] [1511.05497] Aprendiendo arquitecturas de redes neuronales usando Backpropagation

[2] [1611.06694] Entrenamiento de redes neuronales dispersas

Esta pregunta fue explorada en [1605.07146] Redes residuales anchas

“Se demostró que las redes residuales profundas pueden escalar hasta miles de capas y aún así tienen un rendimiento mejorado. Sin embargo, cada fracción de un porcentaje de precisión mejorada cuesta casi duplicar el número de capas, por lo que entrenar redes residuales muy profundas tiene el problema de disminuir la reutilización de características, lo que hace que estas redes sean muy lentas para entrenar. Para abordar estos problemas, en este artículo llevamos a cabo un estudio experimental detallado sobre la arquitectura de los bloques de ResNet, en base al cual proponemos una nueva arquitectura donde disminuimos la profundidad y aumentamos el ancho de las redes residuales. Llamamos a las estructuras de red resultantes redes residuales anchas (WRN) y mostramos que estas son muy superiores a sus contrapartes delgadas y muy profundas comúnmente utilizadas. Por ejemplo, demostramos que incluso una simple red residual de 16 capas de profundidad supera en precisión y eficiencia a todas las redes residuales profundas anteriores, incluidas las redes de mil capas de profundidad, logrando nuevos resultados de vanguardia en CIFAR, SVHN , COCO y mejoras significativas en ImageNet.

El segundo caso, teóricamente.

La ganancia de una capa adicional es exponencial a la ganancia de unidades adicionales en una capa.

Consulte la Sección 2 de Learning Deep Architectures for AI

o la Sección 3.2 de Sobre el origen del aprendizaje profundo. (descargo de responsabilidad: este es mi trabajo 🙂)

Esta imagen debería resolverlo por ti. Los números sobre cada pilar son la tasa de error de clasisfying imágenes.

Existe una correlación directa entre el número creciente de capas y la tasa de error decreciente.

Pruebe esta aplicación de juegos de red neuronal tensorflow y compruébelo usted mismo:

http://playground.tensorflow.org

No sube a los números que especifique, pero puede ver la diferencia entre agregar más unidades por capa o más capas.

More Interesting

¿Cuál es el papel de una capa totalmente conectada en una red neuronal profunda?

¿Es probable que Goldman Sachs sea el primero en alcanzar la singularidad?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Cuál es la diferencia entre el aprendizaje automático y el análisis de datos?

¿Qué es una descripción general del aprendizaje de múltiples núcleos (MKL)?

¿Cómo entrenamos redes neuronales en imágenes en lugar de datos numéricos?

¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?

¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT?

Cómo poner un programa de IA en un dispositivo

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

¿Los bancos de inversión como Goldman Sachs o JP Morgan utilizan el aprendizaje automático? ¿Contratan a un ingeniero de IA?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

¿Cuál es la diferencia entre el aprendizaje automático en Python y R?