Con respecto al descenso de gradiente funcional, ¿qué significa minimizar un funcional con respecto a una función? Proporcione un ejemplo claro.

Un funcional se refiere a un objeto matemático que toma una función como su entrada. [Las funciones más comúnmente encontradas toman solo escalares o vectores como entradas.]

En el aprendizaje automático, el ejemplo canónico de funcional es la función de pérdida. Una función de pérdida [por ejemplo, la pérdida al cuadrado [matemática] L (y, \ hat {y}) [/ matemática]] toma la etiqueta verdadera [[matemática] y [/ matemática]] y la etiqueta predicha [[matemática] \ hat {y} [/ math]] como entradas, y genera un valor alto cuando la etiqueta verdadera y las etiquetas predichas están muy separadas, y de otro modo un valor bajo [[math] (y – \ hat {y}) ^ 2 [/ matemáticas]].

Ahora, el valor predicho se obtiene típicamente usando una función, digamos [math] \ hat {y} = f (x) [/ math], donde [math] x [/ math] es la entrada. Si conecta esto a la función de pérdida, obtiene [matemáticas] L (y, f (x)) [/ matemáticas], que ahora se convierte en funcional . El objetivo es optimizar [matemática] L [/ matemática] wrt [matemática] f [/ matemática], es decir, encontrar la función [matemática] f [/ matemática] que minimiza la pérdida. Una forma de resolver esta optimización es utilizando el descenso de gradiente funcional, en el que generaliza la noción de gradientes y da pasos en el espacio de funciones.

More Interesting

¿Es posible generar programas informáticos solo a partir de especificaciones?

¿Es cierto que las predicciones en el espacio de alta dimensión son más difíciles en torno al origen?

¿En qué se diferencia la teoría del "cuello de botella de información" del aprendizaje profundo del ejemplo conocido de tener una capa oculta de dimensión reducida en un codificador automático?

¿Cómo es usar Theano en Python?

¿Cuál es la diferencia entre D3M y el aprendizaje profundo?

¿Dónde puedo obtener un conjunto de datos de notas de suicidio para fines de aprendizaje automático?

¿Cómo podemos usar Tensorflow para problemas de clasificación?

¿Cómo funciona la función "Tiempos populares" de Google Maps?

¿Qué cursos de estadística de Harvard debería tomar si quiero aprender aprendizaje estadístico / aprendizaje automático?

¿Puedo confiar en un modelo de clasificación con validación cruzada y precisión de prueba decentes incluso si el número de observaciones es menor que el de las características?

¿Se puede extraer información significativa de un sistema caótico utilizando una red neuronal?

¿Qué es la estimación de contraste de ruido (NCE)?

¿Por qué TF (frecuencia de término) a veces da mejores puntuaciones F que TF-IDF para la clasificación de texto?

¿Qué es la estimación de máxima verosimilitud?

¿Existe algún informe publicado que haya aplicado con éxito el aprendizaje profundo para un sistema de recomendación basado en contenido de texto?