La idea clave aquí (para los detalles específicos de su pregunta) es que las redes neuronales con algunas capas pueden representar una gran clase de hipótesis de funciones. Luego, el backprop ajusta las capas de peso hacia abajo (lo que funciona inherentemente para problemas como la visión porque son de naturaleza compositiva) a medida que se alimentan los datos de entrenamiento y generalmente se necesitan muchos datos de entrenamiento para que las redes neuronales no se sobreajusten, de ahí esta imagen donde no son mejores que otros algoritmos hasta que obtengan suficientes datos de entrenamiento:
No hay una teoría ultra robusta de por qué se están generalizando tan bien a los resultados del mundo real en este momento (2016) todavía estamos especulando y haciendo analogías entre ellos y la naturaleza de la ley física para ver si hay algo de valor allí, por ejemplo, este documento
- ¿Es la aplicación asesina de Duolingo realmente un corrector gramatical?
- ¿No son exageradas las computadoras conscientes y conscientes, tal vez incluso imposibles?
- ¿Se puede clasificar a un robot autorreplicante e artificialmente inteligente como un ser vivo?
- ¿Por qué los ingenieros de software franceses son tan buenos en las competiciones de IA?
- Si los robots van a ser humanos algún día, ¿cómo debería ser la función de costo y cómo pueden los humanos aprender de ellos mismos?
[1608.08225] ¿Por qué el aprendizaje profundo y barato funciona tan bien?
Mostramos cómo el éxito del aprendizaje profundo depende no solo de las matemáticas sino también de la física: aunque los conocidos teoremas matemáticos garantizan que las redes neuronales pueden aproximarse bien a funciones arbitrarias, la clase de funciones de interés práctico puede aproximarse a través del “aprendizaje barato” con exponencialmente menos parámetros que los genéricos, porque tienen propiedades simplificadoras que se remontan a las leyes de la física. La excepcional simplicidad de las funciones basadas en la física depende de propiedades como la simetría, la localidad, la composicionalidad y la probabilidad logarítmica polinómica, y exploramos cómo estas propiedades se traducen en redes neuronales excepcionalmente simples que se aproximan tanto a fenómenos naturales como imágenes y representaciones abstractas de los mismos como dibujos . Además, argumentamos que cuando el proceso estadístico que genera los datos es de cierta forma jerárquica que prevalece en la física y el aprendizaje automático, una red neuronal profunda puede ser más eficiente que una superficial. Formalizamos estas afirmaciones utilizando la teoría de la información y discutimos la relación con los procedimientos del grupo de renormalización. Varios “teoremas de no aplanamiento” muestran cuando estas redes profundas eficientes no pueden ser aproximadas con precisión por otras superficiales sin pérdida de eficiencia, incluso para redes lineales.