¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?

La matriz de curvatura, propiamente conocida como la matriz de Hesse, codifica la curvatura local del espacio multidimensional donde una red neuronal “vive y aprende”. Si la matriz de Hesse se puede calcular directamente, se puede utilizar para dirigir adecuadamente el descenso del gradiente y, por lo tanto, mejorar la velocidad de aprendizaje y la convergencia.

Pero, para las redes de aprendizaje profundo, la matriz de Hesse tiende a ser enorme y se vuelve poco práctica para calcular y “mantenerse”, y también se convierte en una carga computacional para recalcularla con frecuencia para adaptarse al cambiante panorama de errores. Para estos casos (demasiado frecuentes cuando se trata con sistemas de aprendizaje profundo), se han desarrollado diferentes técnicas, denominadas colectivamente “sin arpillera”. Tienen la ventaja de ser menos pesados en espacio y computación, pero también la desventaja de requerir más épocas de entrenamiento y producir una tasa de convergencia más lenta.

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Cuáles son actualmente los temas candentes en la investigación de aprendizaje automático y en aplicaciones reales?

¿Quién inventó las redes neuronales de convolución?

Cómo poner un programa de IA en un dispositivo

¿Qué tipo de aumento de datos se puede usar para imágenes médicas?

¿Cómo es la aplicación K-Means de maximización de expectativas en Naive Bayes?

¿Qué software, lenguajes de programación y / o bibliotecas recomendaría para comenzar a hacer investigación independiente de redes neuronales y aprendizaje automático?

RNN para modelado de idiomas en Tensorflow. ¿Cómo puedo rellenar las secuencias si mi entrada está constituida por la incorporación de palabras?

More Interesting

¿Por qué la optimización del aprendizaje profundo es más rápida en las CPU que en las GPU?

¿Cuál es la diferencia entre la regresión de mínimos cuadrados ordinarios y la regresión lineal con el método de mínimos cuadrados?

Cómo calcular la retropropagación en una capa de agrupación promedio global

¿Cómo reconoce la red neuronal convolucional los objetos de las imágenes sin la percepción o reconocimiento 3D?

¿Dónde puedo encontrar a alguien que me enseñe 1 a 1 sobre el aprendizaje automático?

¿Por qué asumiríamos que los datos son iid cuando no lo son?

¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?

Cómo entrenar una red neuronal con grandes datos

¿Cómo se implementa una pila en hardware para subrutinas de nivel de código de máquina?

¿Cuáles son los buenos libros para el aprendizaje automático?

¿Es un doctorado en inteligencia artificial una cosa? ¿O el doctorado estaría realmente en aprendizaje automático / visión artificial, etc.?

¿Por qué se hace referencia a la validación como 'dev' en algunos ejemplos de programas de aprendizaje automático?

¿Hay algún kit de herramientas LSTM disponible en MATLAB?

¿Cuáles son las instituciones en India que ofrecen cursos de aprendizaje automático y minería de datos y cuáles son las áreas posteriores?

Cómo hacer frente al aprendizaje de la ciencia de datos

Web Analytics