Un perceptrón multicapa tiene parámetros como el tamaño de un lote, épocas, neuronas, velocidad de aprendizaje, etc. ¿Cuáles son algunas experiencias prácticas de sintonización?

Aunque ha preguntado sobre el perceptrón multicapa en particular, los términos clave que utilizó son términos generales muy importantes que se utilizan en casi cualquier tipo de red neuronal profunda o RNN. Te animo a que leas el siguiente contenido para comprender mejor cada uno de estos y también cómo aplicarlos prácticamente de una manera fácil:

Hay bastantes maneras en que puede hacer un entrenamiento de hiperparámetros:

Búsqueda de cuadrícula (o barrido de parámetros)
Optimización bayesiana.
Búsqueda aleatoria
Optimización basada en gradiente

Este artículo wiki ofrece una muy buena descripción de cada uno de estos métodos. Si tiene acceso a buenos recursos informáticos, por ejemplo. GPU, sugeriría que puede ir a la búsqueda de cuadrícula, que esencialmente busca a través de una combinación de cada uno de los valores de hiperparámetros en rangos predeterminados fijos.

Le proporciono algunos recursos útiles que lo ayudarán a comprender el aprendizaje y le proporcionarán formas prácticas de ajustar los hiperparámetros. 3) y 4) son lo que necesita según su pregunta.

Los fundamentos del aprendizaje usando el gradiente de descenso.
Una buena explicación del tamaño del lote, épocas, etc.
Ajuste práctico de hiperparámetros en la biblioteca sklearn de Python : GridSearchCV.
Ajuste práctico de hiperparámetros en Tensorflow : Optunity.

Aprendizaje automáticoAprendizaje profundoKerasRedes neuronales artificiales

Related Content

Dado que existen marcos optimizados en línea, ¿vale la pena implementar manualmente implementaciones vectorizadas para redes neuronales complicadas?

La temperatura de la GPU lee 88 C cuando se entrena un LSTM en TensorFlow. ¿Es esto normal (y seguro)?

¿Cuáles son los mejores materiales de física estadística para redes neuronales profundas?

¿Es el cerebro humano una gran red neuronal o está formado por muchas redes neuronales más pequeñas?

¿Qué piensan los expertos en sistemas de recomendación sobre el documento 'Estimación del impacto causal de los sistemas de recomendación a partir de datos de observación'?

¿Por qué el código de paralelo de GPU es más complicado que el código de paralelo de CPU?

¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?

Déjame responder a esto uno por uno:

El tamaño del lote depende en gran medida tanto del tamaño de su base de datos como del tamaño de la memoria de su GPU. Si tiene una base de datos grande, puede ir con un tamaño de lote más grande ya que no es razonable ir con un descenso de gradiente puro.

El número de neuronas y la tasa de aprendizaje deben elegirse de acuerdo con el progreso del entrenamiento a través de la validación. Sin embargo, puede considerar un esquema automático para la adaptación de la tasa de aprendizaje.

El número de épocas se debe elegir de acuerdo con los resultados del entrenamiento. Puede ejecutar más épocas que la red real que finalmente elige o puede considerar técnicas de detención automática.

Egor Dezhic

Depende de tus datos. Puede buscar en Google cómo se resolvieron tareas similares, o usar algún algoritmo para ajustar automáticamente los hiperparámetros (Algoritmos genéticos, por ejemplo).

También puede probar el aprendizaje automático, que hará todo el trabajo por usted.

Egor Dezhic

More Interesting

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

¿Cuál es un ejemplo de aplicación en el mundo real de los modelos de mezcla gaussiana?

¿Cuáles son las suposiciones hechas por los modelos ocultos de Markov?

¿Se pueden mezclar variables categóricas y continuas en una red neuronal simple?

Cómo evaluar mi modelo cada época en TensorFlow

Cómo construir la matriz del núcleo para un polinomio de grado finito

¿Existe la idea de utilizar la regularización para evitar el sobreajuste en la econometría, como lo enseñan los economistas?

¿Qué es una máquina de vectores de soporte?

Dadas las variables / parámetros continuos, ¿cuál es la diferencia entre el aprendizaje automático y la interpolación?

¿Cuáles son algunos algoritmos que un científico de datos debe saber y comprender?

¿Cómo podemos saber si una heurística es mejor que otra sin ejecutarla?

¿Cuál es la diferencia entre pre-entrenamiento y pre-procesamiento?

¿Qué IIT en India tiene el mejor programa de CS para el aprendizaje automático?

Cómo manejar múltiples funciones usando SVM en visión artificial

¿Qué campos de la robótica tienen mucho espacio para la investigación (mucho antes de la madurez)?

Web Analytics