Un perceptrón multicapa tiene parámetros como el tamaño de un lote, épocas, neuronas, velocidad de aprendizaje, etc. ¿Cuáles son algunas experiencias prácticas de sintonización?

Aunque ha preguntado sobre el perceptrón multicapa en particular, los términos clave que utilizó son términos generales muy importantes que se utilizan en casi cualquier tipo de red neuronal profunda o RNN. Te animo a que leas el siguiente contenido para comprender mejor cada uno de estos y también cómo aplicarlos prácticamente de una manera fácil:

Hay bastantes maneras en que puede hacer un entrenamiento de hiperparámetros:

  • Búsqueda de cuadrícula (o barrido de parámetros)
  • Optimización bayesiana.
  • Búsqueda aleatoria
  • Optimización basada en gradiente

Este artículo wiki ofrece una muy buena descripción de cada uno de estos métodos. Si tiene acceso a buenos recursos informáticos, por ejemplo. GPU, sugeriría que puede ir a la búsqueda de cuadrícula, que esencialmente busca a través de una combinación de cada uno de los valores de hiperparámetros en rangos predeterminados fijos.

Le proporciono algunos recursos útiles que lo ayudarán a comprender el aprendizaje y le proporcionarán formas prácticas de ajustar los hiperparámetros. 3) y 4) son lo que necesita según su pregunta.

  1. Los fundamentos del aprendizaje usando el gradiente de descenso.
  2. Una buena explicación del tamaño del lote, épocas, etc.
  3. Ajuste práctico de hiperparámetros en la biblioteca sklearn de Python : GridSearchCV.
  4. Ajuste práctico de hiperparámetros en Tensorflow : Optunity.

Déjame responder a esto uno por uno:

El tamaño del lote depende en gran medida tanto del tamaño de su base de datos como del tamaño de la memoria de su GPU. Si tiene una base de datos grande, puede ir con un tamaño de lote más grande ya que no es razonable ir con un descenso de gradiente puro.

El número de neuronas y la tasa de aprendizaje deben elegirse de acuerdo con el progreso del entrenamiento a través de la validación. Sin embargo, puede considerar un esquema automático para la adaptación de la tasa de aprendizaje.

El número de épocas se debe elegir de acuerdo con los resultados del entrenamiento. Puede ejecutar más épocas que la red real que finalmente elige o puede considerar técnicas de detención automática.

Depende de tus datos. Puede buscar en Google cómo se resolvieron tareas similares, o usar algún algoritmo para ajustar automáticamente los hiperparámetros (Algoritmos genéticos, por ejemplo).

También puede probar el aprendizaje automático, que hará todo el trabajo por usted.