¿Puede una red neuronal aprender a aproximar la derivada de una función de pérdida compleja?

Una red neuronal puede aproximarse a cualquier función, incluida la derivada de una función de pérdida y sí, puede calcularse en tiempo lineal (aunque la constante depende del tamaño de la red). Sin embargo, para entrenar esa red, es posible que deba calcular tantas o más derivadas que para entrenar la red original en la que necesita la función de pérdida. Usar un NN para aproximar la derivada al entrenar otro NN es peligroso porque tendrá un error y eso significa que su NN principal está aprendiendo a aproximar una función ligeramente diferente de la que desea. Normalmente, en condiciones ideales, un NN puede aproximar una función de manera arbitrariamente cercana. El tuyo no puede. Una vez entrenado, no debería tener problemas para calcular la derivada aproximada en el tiempo [matemático] O (n) [/ matemático].

En la mayoría de las aplicaciones, calcular la derivada de una función de pérdida no será el cuello de botella computacional, pero tal vez lo sea en el suyo. De hecho, actualmente estoy trabajando en un problema en el que la función de pérdida es increíblemente costosa de calcular. Es por eso que elegí una función de pérdida diferente. Mi función de pérdida ni siquiera es equivalente a la original, pero es cercana y fácil de calcular la derivada de. Mi NN también convergerá a una función ligeramente diferente. Si puede encontrar una función de pérdida similar con una derivada fácil de calcular, definitivamente será más rápida que usar un segundo NN, pero no sé si los resultados serán mejores o peores.

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Cómo procesan las máquinas los datos?

Supongamos que hay una red neuronal con 4 unidades ocultas y 1 capa oculta y otro NN con 2 capas ocultas, cada una con 2 unidades, ¿cuál es la diferencia?

¿Qué sucederá cuando todos los trabajos en la tierra sean automatizados y realizados por máquinas?

¿Qué cursos debo tomar para poder trabajar en el tipo de investigación realizada en el grupo de investigación de sistemas autoorganizados en Harvard?

¿Qué es la teoría del refuerzo?

¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?

¿Podría alguien decirme cómo puedo cambiar mi voz de hombre a mujer en Audacity?

La idea que describe se ha utilizado hasta cierto punto en uno de los artículos recientes de DeepMind para simular gradientes de la función de pérdida para cada capa y acelerar el aprendizaje en redes neuronales recurrentes. No estoy seguro de si se puede traducir fácilmente a otras familias de modelos / funciones de pérdida, pero no veo ninguna razón obvia por la que ese no sea el caso.

Es posible que desee consultar su entrada de blog o el documento de Arxiv para obtener una explicación más detallada.

Interfaces neuronales desacopladas utilizando gradientes sintéticos | Mente profunda

[1608.05343] Interfaces neuronales desacopladas utilizando gradientes sintéticos

Alexander Shchur

More Interesting

¿Qué piensa Pedro Domingos de OpenAI?

¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?

¿El aprendizaje por refuerzo es el primer paso para la IA general?

¿Cuáles son las mejores técnicas de aprendizaje automático para el reconocimiento de caracteres escritos a mano?

¿El basilisco de roko se aplica a personas que no son lo suficientemente inteligentes como para afectar la trayectoria de la formación de IA?

Si soy nuevo en programación y quiero aprender sobre programación de IA, ¿por dónde debo comenzar?

¿Son los chatbots las nuevas aplicaciones?

¿Qué significa el escalado de datos en el aprendizaje automático?

¿Es más divertido jugar contra los videojuegos si hacen locuras?

Inteligencia artificial: ¿hay un formato común para almacenar el conocimiento?

¿Por qué las IA en los videojuegos RTS apestan tanto en los mapas de agua?

¿Cuál es el peor de los casos para la inteligencia artificial?

¿Puede AI controlar un grupo de ataque de portaaviones de la Marina de los EE. UU.?

¿Qué país tiene la tecnología robótica más avanzada?

¿Hay alguna aplicación de aprendizaje automático en un RTOS y viceversa?

Web Analytics