¿Por qué siempre encuentro algo en el último lugar donde miro?
“A veces” puede pasar cualquier cosa en las redes neuronales. “A veces” puede inicializar accidentalmente sus pesos a un mínimo local, es muy poco probable. Puede pensar en la elección de hiperparámetros como información adicional proporcionada al sistema. Realmente no sabe exactamente lo que significa, pero a medida que cambia esa información, el sistema se comporta de manera diferente. Por lo tanto, puede elegir diferentes valores para alimentarlo hasta que obtenga un mejor resultado en su prueba. Considerando que, Adadelta realmente no tiene esa entrada de información adicional, por lo que no tiene la oportunidad de explorar y encontrar algo que funcione mejor.
Considere todas las configuraciones posibles para la tasa de aprendizaje de SGD, la disminución de la tasa de aprendizaje y la configuración de impulso. La cuestión es que hay regiones de los posibles valores que puede establecer que simplemente empujan los pesos en una mejor dirección para este problema (con respecto a todo el espacio de configuraciones posibles, son bastante pequeños, pero somos bastante bueno en encontrarlos). En lo que a mí respecta, la optimización es el trabajo de la computadora, por lo que no voy a perder mucho tiempo seleccionando cuidadosamente una tasa de aprendizaje. A menos que esté tratando de hacer un nuevo optimizador, probablemente seguiré usando Adadelta. Es más rápido y más fácil de comparar para obtener resultados (ya que no puede hacer la pregunta: “¿pero funcionaría mejor con una tasa de aprendizaje diferente?”)
- Will Naive Bayes dará un buen resultado si el conjunto de entrenamiento es mucho más pequeño que el no. de características en un clasificador de aprendizaje automático?
- ¿Qué es el mecanismo de atención en redes neuronales?
- ¿Qué significa "las redes neuronales profundas son covariantes para la traducción"?
- ¿Cuál es la mejor manera de aprender la programación CUDA C para implementar nuevas ideas de aprendizaje profundo?
- ¿Cuáles son algunos desarrollos interesantes pero pasados por alto en la investigación de ML?