¿Por qué a veces vanilla SGD y Momentum superan a los optimizadores como AdaDelta en el aprendizaje profundo?

¿Por qué siempre encuentro algo en el último lugar donde miro?

“A veces” puede pasar cualquier cosa en las redes neuronales. “A veces” puede inicializar accidentalmente sus pesos a un mínimo local, es muy poco probable. Puede pensar en la elección de hiperparámetros como información adicional proporcionada al sistema. Realmente no sabe exactamente lo que significa, pero a medida que cambia esa información, el sistema se comporta de manera diferente. Por lo tanto, puede elegir diferentes valores para alimentarlo hasta que obtenga un mejor resultado en su prueba. Considerando que, Adadelta realmente no tiene esa entrada de información adicional, por lo que no tiene la oportunidad de explorar y encontrar algo que funcione mejor.

Considere todas las configuraciones posibles para la tasa de aprendizaje de SGD, la disminución de la tasa de aprendizaje y la configuración de impulso. La cuestión es que hay regiones de los posibles valores que puede establecer que simplemente empujan los pesos en una mejor dirección para este problema (con respecto a todo el espacio de configuraciones posibles, son bastante pequeños, pero somos bastante bueno en encontrarlos). En lo que a mí respecta, la optimización es el trabajo de la computadora, por lo que no voy a perder mucho tiempo seleccionando cuidadosamente una tasa de aprendizaje. A menos que esté tratando de hacer un nuevo optimizador, probablemente seguiré usando Adadelta. Es más rápido y más fácil de comparar para obtener resultados (ya que no puede hacer la pregunta: “¿pero funcionaría mejor con una tasa de aprendizaje diferente?”)

More Interesting

¿Es posible engañar a un automóvil autónomo para interpretar una señal de alto (como lo percibe el ojo humano) como una señal de velocidad?

¿Cuáles son algunos de los análisis predictivos inteligentes y el aprendizaje automático que uno puede hacer con los datos de flujo de clics?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿McKinsey consideró el crecimiento del software de Machine Learning al predecir la escasez de habilidades analíticas en el documento técnico de Big Data?

¿Qué tan lejos estamos de usar el reconocimiento de voz como interfaz de usuario en un teléfono para cerca del 100% de todas las funciones (sin entradas de teclado o deslizamiento)?

¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?

¿Cuál es la mejor opción, Machine Learning o codificación?

¿Cómo es la aplicación K-Means de maximización de expectativas en Naive Bayes?

¿Cuál es el mejor clasificador HOG de detección de peatones para descargar?

¿Qué se entiende por el término "ejemplos adversos" en el aprendizaje automático?

¿Es necesario ajustar manualmente la tasa de aprendizaje cuando uso el método de descenso de gradiente estocástico de Adam en la práctica?

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

¿Por qué las celdas LSTM tienen dos puertas de escritura?

¿Qué piensa la gente del siguiente documento que señala los límites del aprendizaje de extremo a extremo?

Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?