¿Cuál es una explicación intuitiva de lo que es la actualización de gradiente proyectada?

Cada iteración es una actualización de gradiente, seguida de una actualización de proyección (ortogonal).

Aquí, [math] g_t [/ math] es un gradiente de la función de costo, [math] \ eta [/ math] es el tamaño del paso (constante, elegido mediante la búsqueda de línea, etc.). Da un paso en la dirección del gradiente, con una longitud igual a eta. Esto te pone en [math] x_t – \ eta g_t [/ math]. Una vez que haya hecho esto, verificará si todavía está en el conjunto de restricciones, [math] \ mathcal {X} [/ math]. Si no, encuentra el punto más cercano en ese conjunto y se retira a él. El argmin representa este último procedimiento.

También puede darse el caso de que [matemática] \ eta [/ matemática] se elija con el conocimiento de que una proyección está por venir. En este caso, elige [matemática] \ eta [/ matemática] para optimizar el objetivo después de la proyección, en lugar del objetivo anterior.

Related Content

¿Qué importancia tienen las estructuras de datos y los modelos gráficos para el aprendizaje automático?

¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?

¿Cuáles son las mejores bibliotecas de redes neuronales de Python y Java con soporte multi gpu y multiplataforma?

¿Para qué se utiliza el aprendizaje automático?

¿La red neuronal convolucional (CNN) tiene que ver con la arquitectura de red y factores como la tasa de aprendizaje, la función de pérdida utilizada, etc.

¿Hacia dónde se dirige la investigación de aprendizaje profundo?

Además de tratar de reconstruir la entrada (como en Autoencoder), ¿qué otras tareas podrían resultar útiles para el aprendizaje no supervisado de redes profundas?

More Interesting

¿Cuáles son los principales problemas con el uso de la codificación one-hot?

¿Cómo puedo ejecutar una regresión lineal en paralelo?

¿Cuál es la forma de generar / Ver resultados intermedios o parciales para la recomendación basada en el usuario en mahout, mientras que el mismo está disponible cuando se hace una recomendación basada en elementos en un modelo distribuido (Hadoop)?

¿Cómo puede motivar a un estudiante de CS para que aprenda Machine Learning?

¿Cuál es un resumen del trabajo de Jordan Boyd-Graber sobre la Respuesta incremental interactiva a preguntas que le valió el Premio a la Demostración Excepcional de NIPS?

Yoshua Bengio: ¿Será el aprendizaje profundo un paso hacia la IA consciente?

¿Dónde están los temas interesantes que se cruzan con la neurociencia y el aprendizaje automático?

¿Cómo funciona el entrenamiento multi-gpu?

¿OCR es una amenaza para CAPTCHA?

¿Puede LSTM u otro tipo de red neuronal recurrente aprender a extraer y representar un estado de Markov?

¿Cómo utilizan las empresas los algoritmos de IA en aplicaciones prácticas?

¿Cuáles fueron los 10 problemas principales en Machine Learning para 2013?

¿Qué piensa la gente del concurso Quora ML CodeSprint 2013?

¿Cuándo necesitamos tener un mayor número de unidades ocultas que el número de unidades de entrada y viceversa?

¿Cuál es la diferencia entre la regresión de mínimos cuadrados ordinarios y la regresión lineal con el método de mínimos cuadrados?

Web Analytics