Al diseñar nuevas arquitecturas de aprendizaje profundo, ¿cómo se determina si la arquitectura es mala o si la optimización del modelo es el problema?

Creo que no hay una manera infalible de resolver eso. Pero aquí hay algo que puede intentar obtener algunas pistas:

Predecir sobre los datos de entrenamiento: Cualquier modelo que tenga la esperanza de tener un buen desempeño en los datos de la prueba debe al menos hacerlo razonablemente bien en los datos de entrenamiento. Entonces, en lugar de optimizar la capacidad de generalización del modelo, se está centrando en la capacidad del modelo para capturar el patrón en los datos.
Comience con un modelo muy simple: para ConvNets, use, digamos, 2-3 capas de convolución seguidas de 1-2 capas completamente conectadas; para MLP, use una red de 2–3 capas. Luego, optimice esta red para obtener algo razonable, probando varios trucos, como inicializaciones, tasas de aprendizaje, etc. Lo más probable es que para la mayoría de las tareas que se pueden aprender, estos modelos al menos deberían ser significativamente mejores que las conjeturas aleatorias. Una vez que haya optimizado estas redes simples, aumente gradualmente la complejidad de la red [profundidad, tipos de capas, ancho, etc.]. La configuración que obtuvo de las redes más simples debería funcionar razonablemente bien en las redes más grandes. Ajuste los parámetros alrededor de sus valores óptimos anteriores para obtener nuevos valores óptimos para estos modelos más grandes.

Aprendizaje automáticoAprendizaje profundoArquitecturaArquitectura de softwareRedes neuronales artificiales

Related Content

¿Cuáles son las diferencias entre big data, hadoop y colmena? ¿Son solo jergas con el mismo significado? ¿Puedes resumir en detalle?

¿Cuándo recomendaría los modelos gráficos sobre el aprendizaje profundo?

¿El uso de memoria aumenta a medida que aumentan los datos de entrenamiento en redes neuronales profundas?

¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?

¿Qué especificaciones de computadora se recomiendan para entrenar redes neuronales?

¿Cuáles son algunos de los últimos virus informáticos que circulan?

¿Se puede instalar OpenCV en Raspberry pi 3?

More Interesting

¿Qué núcleo (para los métodos de núcleo en el aprendizaje automático) es menos sensible a la alta dimensión: cauchy, gaussiana o laplaciana?

¿Por qué se supera un clasificador supervisado?

¿Qué motores de búsqueda hacen un buen uso de las capacidades de búsqueda semántica?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

¿Qué le parece más interesante: el análisis de series temporales o el aprendizaje automático? ¿Por qué?

¿Cuál es la diferencia entre un conjunto de entrenamiento y un conjunto de prueba?

¿Por qué las computadoras no pueden superar de manera confiable a los humanos en reconocimiento facial?

¿Cuándo debo coseno similitud? ¿Se puede usar para la agrupación?

Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

¿Puede un ML / AI aprender a pasar captchas?

¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

¿Las herramientas como BigML o Google Prediction API dejarán a los expertos en aprendizaje automático fuera del trabajo?

¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

Cómo construir una aplicación para educación

Web Analytics