Por lo general, para un problema dado, la red de aprendizaje profundo se ve así:
Pero para las tareas de reconocimiento visual, puede encontrarse con redes como esta:
- ¿Cuáles serán los casos de uso de aprendizaje automático más grandes de 2017?
- ¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?
- Además de experimentar emoción, ¿qué cosas puede hacer un niño humano que una computadora no puede hacer?
- He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?
- ¿Cuál es el trabajo de investigación sobre aprendizaje automático más emocionante que Yoshua Bengio leyó en 2015?
Como regla general, un mayor número de unidades ocultas (capas) está bien si su dimensión de entrada es pequeña (como no miles o ilimitadas), pero preferiría ir con profundidad para contrarrestar con precisión el aumento de unidades ocultas. De acuerdo con el Teorema de aproximación universal (Teorema de aproximación universal – Wikipedia), su pérdida de entrenamiento debería disminuir si aumenta el número de nodos ocultos (debe ganar precisión, en cualquier grado que desee), hasta el punto de que se sobreajustará. Su red comenzará a “memorizar” los datos que usted alimenta, convirtiéndose en una gran tabla de búsqueda. No quieres eso. Desea que su modelo se generalice bien para datos invisibles, lo que significa que debe memorizar patrones y distribuciones y no datos de entrenamiento.
Entonces, el mejor enfoque es que después de sintonizar su red neuronal profunda, realice algunos ajustes de hiperparámetros, el número de unidades ocultas por capa (amplitud) y el número de capas (profundidad) deben ser algunos de los hiperparámetros que desea explorar automáticamente