¿Qué arquitecturas de redes neuronales requieren la menor cantidad de datos de entrenamiento?

¿Qué arquitecturas de redes neuronales requieren la menor cantidad de datos de entrenamiento?”

Esta pregunta está muy mal planteada. Por qué ? Vea abajo.

¿La menor cantidad de datos de entrenamiento para saber qué?

Todas las decisiones relacionadas con el diseño de arquitecturas de redes neuronales se toman teniendo en cuenta el objetivo de aprendizaje. Esto significa ser consciente de los desafíos del objetivo final de aprendizaje.

Tomemos, por ejemplo, el problema de convertir la temperatura de “grados centígrados” a “grados Farenheit”. Este es un problema demasiado simple y puede usar una red neuronal simple de una capa con dos neuronas para resolver este problema.

Ahora considere el problema de la clasificación de imágenes Imagenet-1K. Para este problema, debe utilizar arquitecturas como Alexnet, OverFeat, ResNet, Inception, etc. Estas arquitecturas varían en la cantidad de parámetros que las componen. Sin embargo, para todos ellos debe usar una gran cantidad de imágenes para lograr resultados aceptables.

Todavía no existe una base teórica de las redes neuronales que pueda decirnos de manera concluyente nada sobre el rendimiento de las redes neuronales en función del número de datos de entrenamiento.

En caso de que estuvieras hablando sobre el número de parámetros en diferentes arquitecturas, la pregunta se vuelve bien planteada.

Para obtener una respuesta a esta versión “bien planteada” del problema, puede consultar el siguiente documento

Canziani, A., Paszke, A. y Culurciello, E., 2016. Un análisis de modelos de redes neuronales profundas para aplicaciones prácticas. preimpresión arXiv arXiv: 1605.07678.

Las redes neuronales suelen tener bastante hambre de datos, por lo que es importante obtener el mayor conjunto de datos de entrenamiento posible.

Un conjunto correcto de datos de entrenamiento sería mucho mejor en comparación con los datos espurios, por lo que es importante eliminar cualquier muestra de entrenamiento con datos corruptos (textos cortos, imágenes altamente distorsionadas, etiquetas de salida espurias, características con muchos valores nulos, etc.)

El siguiente paso es crear un aumento de datos y crear nuevas muestras.

La selección de la función de activación apropiada es vital en el proceso de formación de datos. Sigmoid es una función de activación de uso común, pero tiene pocas limitaciones inherentes.

Por lo general, es útil mantener una mayor cantidad de capas ocultas en comparación con las óptimas. La regla general para descubrir las capas óptimas es simple: solo continúe agregando capas, hasta que el error de prueba ya no mejore

A medida que aumenta la complejidad en la relación entre los datos de entrada y la salida deseada, el número de elementos de procesamiento en la capa oculta también debe aumentar

Entrenamiento de una red neuronal artificial – Introducción