El aprendizaje en redes neuronales se realiza principalmente a través de alguna variación del método de descenso de gradiente elemental. Este mismo método es omnipresente (nuevamente en alguna forma o forma) en otros métodos numéricos en matemáticas, especialmente en la solución numérica de ecuaciones diferenciales. Resulta que, para muchos problemas numéricos (el entrenamiento de las redes neuronales es una de ellas), el descenso de gradiente es un “método rígido” (vea la ecuación de rigidez y las referencias para intentar definir la “rigidez”). En palabras simples, la rigidez se refiere al caso en el que el error numérico al resolver una ecuación particular diverge rápidamente (típicamente exponencialmente) con el tamaño del paso. En tal caso, uno necesita usar tamaños de paso extremadamente pequeños para mantener el error bajo control. Eso es lo que básicamente sucede cuando se entrena redes neuronales a través del descenso de gradiente.
Una nota IMPORTANTE: el mecanismo de “rigidez” aún no se entiende muy bien matemáticamente, a pesar de una larga historia. Ni siquiera tenemos una definición única de rigidez universalmente aceptada, aunque la mayoría de las definiciones son bastante cercanas entre sí. Tampoco se conocen exactamente las condiciones bajo las cuales un método numérico particular se vuelve rígido para un problema numérico particular. Entonces, en relación con su pregunta, entendemos algunos de los aspectos involucrados en la desaceleración del aprendizaje en las redes neuronales, pero no todo.
- ¿Cuáles son algunos desafíos / consejos comunes para un estudiante que busca su doctorado justo después de su BE / B.Tech?
- Voy a ir a la universidad pronto y tengo muchas ganas de hacer una investigación de pregrado de CS, pero todos los trabajos de investigación que he intentado leer están muy por encima de mi cabeza. ¿Esto es normal?
- ¿Cuál es la mejor manera de hacer investigación CS en Stanford como estudiante?
- En su POE, si un solicitante de doctorado de CS enumera grandes errores en un documento de investigación de su posible asesor de doctorado, ¿eso impresionaría al comité de admisiones?
- ¿Cuáles son los mejores recursos para aprender visión por computadora para alguien con experiencia en álgebra lineal y de probabilidad (y un poco en aprendizaje automático)? El libro "Visión por computadora: algoritmos y aplicaciones" no es muy amigable para principiantes.