Geoffrey Hinton dio una buena respuesta a esto en la clase 6-2 de su clase de Redes Neurales en Coursera. Esta respuesta se dirigirá principalmente a cómo la escala de entrada afecta a una red neuronal o modelo de regresión logística.
Esencialmente, escalar las entradas (a través de la normalización media, o puntaje z) le da a la superficie de error una forma más esférica, donde de lo contrario sería una elipse de curvatura muy alta. Dado que el descenso del gradiente ignora la curvatura, tener una superficie de error con alta curvatura significará que tomamos muchos pasos que no necesariamente están en la dirección óptima. Cuando escalamos las entradas, reducimos la curvatura, lo que hace que los métodos que ignoran la curvatura (como el descenso de gradiente) funcionen mucho mejor. Cuando la superficie de error es circular (esférica), el gradiente apunta al mínimo, por lo que el aprendizaje es fácil.
- ¿Qué significa decir que dos clasificadores son independientes?
- ¿Qué campos necesitan NLP (procesamiento del lenguaje natural) o técnicas de minería de texto?
- ¿Cómo funcionan AdaGrad / RMSProp / Adam cuando descartan la dirección del degradado?
- ¿Cuál es la razón para mapear datos de dos idiomas diferentes en un espacio de incrustación de palabras común y no usar dictonarios y asignarle el idioma b a los vectores del idioma a para entrenar un modelo de manera multilingüe?
- ¿Qué es el mecanismo de atención en redes neuronales?