Algunas características pueden ser extremadamente útiles e informativas para un problema de optimización, pero pueden no aparecer en la mayoría de las instancias o datos de capacitación. Si, cuando aparecen, se ponderan por igual en términos de tasa de aprendizaje como una característica que ha aparecido cientos de veces, prácticamente estamos diciendo que la influencia de tales características no significa nada en la optimización general (es el impacto por paso en el el descenso de gradiente estocástico será tan pequeño que prácticamente se puede descartar). Para contrarrestar esto, AdaGrad hace que las características que son más escasas en los datos tengan una tasa de aprendizaje más alta que se traduce en una actualización más grande para esa característica (es decir, en la regresión logística, el coeficiente de regresión de esa característica aumentará / disminuirá más que un coeficiente de una característica que se ve muy a menudo).
En pocas palabras, las funciones dispersas pueden ser muy útiles. No tengo un ejemplo de aplicación en el entrenamiento de redes neuronales. Los diferentes algoritmos de aprendizaje adaptativo son útiles con diferentes datos (realmente dependería de cuáles sean sus datos y de la importancia que otorgue a las funciones dispersas).
Esta página proporciona algunos ejemplos sintéticos de casos con características dispersas en las que AdaGrad es útil:
Página en ucsd.edu
- ¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?
- ¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?
- ¿Por qué debería uno aprender el aprendizaje automático desde cero en lugar de aprender a usar las bibliotecas disponibles?
- ¿Cómo aprendo la teoría profunda sobre Bitcoin como su programación o hash?
- ¿Cuál es la tecnología detrás de la aplicación Summly recién adquirida por Yahoo?