¿Cuál es el propósito de AdaGrad para la formación decente de la red neuronal de gradiente estocástico?

Algunas características pueden ser extremadamente útiles e informativas para un problema de optimización, pero pueden no aparecer en la mayoría de las instancias o datos de capacitación. Si, cuando aparecen, se ponderan por igual en términos de tasa de aprendizaje como una característica que ha aparecido cientos de veces, prácticamente estamos diciendo que la influencia de tales características no significa nada en la optimización general (es el impacto por paso en el el descenso de gradiente estocástico será tan pequeño que prácticamente se puede descartar). Para contrarrestar esto, AdaGrad hace que las características que son más escasas en los datos tengan una tasa de aprendizaje más alta que se traduce en una actualización más grande para esa característica (es decir, en la regresión logística, el coeficiente de regresión de esa característica aumentará / disminuirá más que un coeficiente de una característica que se ve muy a menudo).

En pocas palabras, las funciones dispersas pueden ser muy útiles. No tengo un ejemplo de aplicación en el entrenamiento de redes neuronales. Los diferentes algoritmos de aprendizaje adaptativo son útiles con diferentes datos (realmente dependería de cuáles sean sus datos y de la importancia que otorgue a las funciones dispersas).

Esta página proporciona algunos ejemplos sintéticos de casos con características dispersas en las que AdaGrad es útil:
Página en ucsd.edu

Aprendizaje automáticoPendiente de gradienteRedes neuronales artificiales

Related Content

¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas?

¿Debo aprender primero el aprendizaje profundo o de refuerzo? ¿Hay un orden natural? ¿Debería hacerse al mismo tiempo?

¿La red neuronal profunda es realmente un aprendizaje profundo?

¿Cuál es la diferencia entre los métodos de gradiente de políticas y los métodos de actor crítico?

¿Cómo se calcula el punto de ruptura de un algoritmo de aprendizaje?

¿Cómo se puede arreglar una partición RAW USB en Windows?

¿Cuál es el futuro de la RAM?

El razonamiento de la aplicación de AdaGrad puede explicarse mejor en el contexto de los lenguajes naturales. En el procesamiento del lenguaje natural, las características son palabras extraídas del corpus. Ahora, según la ley de Zip, la frecuencia de las características en el corpus sigue una curva hiperbólica. Algunas características son más frecuentes que otras, por lo que al entrenar a un NN para una tarea de PNL, esta información se debe alimentar a la red neuronal.

Esta información se puede aprovechar mientras se optimiza. Las características que son más frecuentes pueden tener una mayor tasa de aprendizaje, mientras que las características que son menos frecuentes deben tener una menor tasa de aprendizaje. AdaGrad esencialmente hace eso. Cada característica tiene una tasa de aprendizaje diferente que es adaptable.

Michael Arthur Bucko

Bien explicado aquí por el prof. de Freitas:

Michael Arthur Bucko

More Interesting

¿Qué cursos deben tomar los antecedentes de EE para el aprendizaje profundo?

¿Por qué los lars y glmnet dan diferentes soluciones? ¿Cuál es mejor?

¿Por qué el impulso ayuda a entrenar una red neuronal?

¿Qué computadora portátil debo comprar, la Dell XPS 15 o la MacBook pro 13 '2017 para una Maestría en Ciencias de la Computación, en los EE. UU. Con enfoque en aprendizaje automático y ciencia de datos?

¿Cómo se usa el análisis de componentes principales en el procesamiento del lenguaje natural?

¿Cómo se debe elegir el parámetro [math] l [/ math] en la regresión de mínimos cuadrados parciales?

¿Alguna forma de dormir será esencial en la IA (inteligencia artificial)?

¿Tenemos que aprender matemáticas detrás de cada algoritmo de aprendizaje automático?

¿Puedo controlar las señales neuronales desde un lugar?

¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?

¿Es posible tener experiencia en desarrollo web, desarrollo de Android, resolución de problemas, IA y ML para tener un buen trabajo, o solo necesito concentrarme en un campo y no fusionar campos?

¿Cuál es la mejor máquina para la minería de criptomonedas?

¿Cuál es la mejor manera de encontrar análisis de sentimientos?

¿Qué tan bueno debería ser uno en Python para aprender Data Science?

¿Existe una relación entre el aprendizaje automático y los procesos estocásticos?

Web Analytics