¿Por qué obtengo un error absurdamente grande cuando uso redes neuronales con muchas capas?

Si bien hay un montón de razones por las que podría estar obteniendo un mal rendimiento, diría que si ha descartado un error subyacente en la forma en que diseñó el programa, es probable que el problema sea su conjunto de entrenamiento.

Obtener un buen material de entrenamiento incluso para una red neuronal de una sola capa es una especie de arte. Las redes de varias capas se vuelven francamente arcanas en la forma en que necesita entrenarlas. Una breve lista de dónde las cosas podrían estar yendo mal es:

  1. Muy pocos ejemplos para aprender.
  2. Demasiados ejemplos, que conducen al sobreajuste.
  3. No hay suficiente variedad en sus muestras para permitir el uso en el mundo real.
  4. Demasiada variedad, evitando que se produzca un modelo claro.
  5. Criterios de evaluación mal definidos.

Todos estos serán difíciles de reconocer sin un examen bastante profundo si el proceso subyacente. Es posible que solo necesite experimentar y ver dónde mejoran las cosas. Las IA son intrínsecamente delicadas, a menudo requieren mucha experimentación antes de que puedan lograr los mejores resultados.