¿Cuándo necesitamos tener un mayor número de unidades ocultas que el número de unidades de entrada y viceversa?

Por lo general, para un problema dado, la red de aprendizaje profundo se ve así:

Pero para las tareas de reconocimiento visual, puede encontrarse con redes como esta:

Como regla general, un mayor número de unidades ocultas (capas) está bien si su dimensión de entrada es pequeña (como no miles o ilimitadas), pero preferiría ir con profundidad para contrarrestar con precisión el aumento de unidades ocultas. De acuerdo con el Teorema de aproximación universal (Teorema de aproximación universal – Wikipedia), su pérdida de entrenamiento debería disminuir si aumenta el número de nodos ocultos (debe ganar precisión, en cualquier grado que desee), hasta el punto de que se sobreajustará. Su red comenzará a “memorizar” los datos que usted alimenta, convirtiéndose en una gran tabla de búsqueda. No quieres eso. Desea que su modelo se generalice bien para datos invisibles, lo que significa que debe memorizar patrones y distribuciones y no datos de entrenamiento.

Entonces, el mejor enfoque es que después de sintonizar su red neuronal profunda, realice algunos ajustes de hiperparámetros, el número de unidades ocultas por capa (amplitud) y el número de capas (profundidad) deben ser algunos de los hiperparámetros que desea explorar automáticamente

En casos generales, si tiene una unidad oculta más grande, su objetivo es encontrar dependencias más complejas. Cada neurona en una capa densa es una regresión [logística]. Cada neurona en la capa adicional tiene en cuenta el resultado de esa regresión. Por lo tanto, si bien están completamente conectados, puede capturar particiones más sofisticadas de su espacio de características, al igual que con árboles de decisión más profundos, por ejemplo.

Si su capa oculta es más pequeña que su capa de entrada, está asumiendo que su entrada es redundante y puede incrustarse en un subespacio con menor dimensionalidad.

Por ejemplo, para un codificador automático, donde la capa oculta se ve obligada a ser escasa (por lo que destila características útiles y únicas).

Considere un caso en el que tiene una red neuronal convolucional y la primera capa está aprendiendo algunas características básicas como los bordes. Puedes imaginar que la siguiente capa aprenderá combinaciones de tales estructuras básicas. Y podemos esperar que el número de combinaciones posibles de esas características básicas sea mucho mayor que el número de características básicas posibles. Entonces necesita una mayor cantidad de filtros en comparación con la primera capa.

More Interesting

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

¿Qué es incrustar | espacio incrustado | ¿Incorporación de características en arquitecturas neurales profundas?

¿Qué es la precisión en el aprendizaje automático?

¿Cuál es la diferencia entre la estimación de máxima verosimilitud (ML) y máxima a Posteri (MAP)?

¿Cuál es la diferencia entre SVM y ANN?

Cómo modelar la siguiente situación probabilística

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

¿Qué significa el siguiente pasaje de un documento de aprendizaje profundo sobre aprendizaje automático sobre representaciones distribuidas frente a representaciones no distribuidas?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

Cómo crear rápidamente un prototipo de una aplicación de reconocimiento de imágenes utilizando el aprendizaje automático y la red neuronal

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Alguien tiene experiencia con las patentes de Digital Infuzion en aprendizaje automático y reducción de dimensiones? ¿Qué hace que sus patentes sean especiales?

Cómo clasificar imágenes de texto en inglés y en otros idiomas usando SVM

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo