En el aprendizaje de características, ¿cuál es la regla general para decidir el número de parches aleatorios y el número de iteraciones / épocas con respecto al número deseado de nodos / longitud de la característica?

¿Puedo suponer que por parche aleatorio te refieres a mini lotes? Si ese es el caso, cualquier tamaño mayor que 10 aceleraría su proceso de capacitación y cualquier valor entre 30 y 40 sería un buen valor predeterminado. Con respecto al número de épocas, puede configurarlo tan alto como desee siempre que use la detención temprana (es decir, deténgase cuando la precisión alcance un cierto nivel).

En cuanto al número de unidades ocultas, puedes configurarlas tan grandes como consideres apropiadas siempre que utilices la detención temprana. El valor predeterminado depende en gran medida de su problema y de los datos disponibles (las capas ocultas demasiado completas funcionan mejor). Finalmente, diría que el parámetro más importante (y este no es gratuito) es la tasa de aprendizaje de cada capa, por lo que deberá realizar una búsqueda para optimizar este hiperparámetro.

Puede encontrar una explicación más detallada sobre todo esto en el trabajo del Prof. Bengio: [1206.5533] Recomendaciones prácticas para el entrenamiento basado en gradientes de arquitecturas profundas

Espero que esto sea de ayuda.

Related Content

¿Qué importancia tienen las estructuras de datos y los modelos gráficos para el aprendizaje automático?

¿Un pequeño porcentaje de datos incorrectos (digamos entre 1% y 5%) en el conjunto de datos de entrenamiento impacta significativamente la efectividad del entrenamiento de una red neuronal?

¿Cuál es la segunda generación de redes neuronales?

¿Cómo utiliza Google el aprendizaje automático?

¿Existe un concepto de API semántica - API que acepta oraciones simples como consultas?

¿Cuáles podrían ser las características posibles para detectar fraude en transacciones en cajeros automáticos?

Computación paralela: ¿Cuáles son los buenos enfoques y fuentes para programar CUDA en Machine Learning con datos a gran escala?

More Interesting

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

¿Por qué se hace referencia a la validación como 'dev' en algunos ejemplos de programas de aprendizaje automático?

¿Qué es una explicación intuitiva de la diferencia entre equilibrios correlacionados y equilbria correlacionada gruesa?

¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?

¿Qué especificaciones de computadora se recomiendan para entrenar redes neuronales?

¿Cuáles son algunas buenas aplicaciones o scripts que prueban muchas técnicas de aprendizaje automático a la vez para problemas de predicción?

¿Cuáles son los mejores métodos para el reconocimiento robusto de caracteres en MATLAB u OPENCV?

¿Es más fácil conseguir un trabajo de aprendizaje automático con maestros de una buena universidad que si solo eres autodidacta?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿Cuáles son las ventajas del aprendizaje semi-supervisado sobre el aprendizaje supervisado y no supervisado?

¿Cuál es el propósito de visualizar las capas de activación en una arquitectura de red neuronal convolucional?

¿Cuál es el básico antes de aprender el aprendizaje automático?

Cómo realizar un proyecto de predicción relacionado con la salud utilizando big data y machine learning

¿Cómo aprendo el aprendizaje automático y dónde puedo practicarlo?

¿Qué es el algoritmo de cambio medio?

Web Analytics