El estado actual del aprendizaje profundo aún no se puede aprender a sí mismo. Como ejemplo, pasaré por casos muy simples que aún no podemos aprender (dejen de lado los complejos como la asignación de crédito).
Tomemos un ejemplo muy simple de redes de convolución.
Si una red neuronal tiene que aprender automáticamente la estructura convolucional de los datos, entonces debe inferir la estructura gráfica subyacente de los datos. Este es un problema en la investigación activa (independiente del aprendizaje profundo), y las soluciones aún no están ahí.
- ¿Por qué el embolsado es más preciso que solo mirar todo el conjunto de datos y tomar el promedio?
- ¿Cuál es la función [math] \ Psi [/ math] en esta diapositiva?
- ¿Cómo calcula la regresión logística de liblinear los gradientes (por ejemplo, diferenciación numérica o automática)?
- Como cuerpo técnico, ¿cómo se concilia el hecho de estar basado en datos, abrazar la diversidad de la fuerza laboral y contratar a los mejores?
- ¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?
Un ejemplo es: si está construyendo un clasificador de imágenes, pero todos los píxeles de su imagen se mezclan constantemente (se aplica la misma combinación aleatoria a cada imagen), entonces su algoritmo debe inferir un nuevo operador de convolución que no se base en píxeles adyacentes . La Figura 3 en Dispersión de pelo profundo sin supervisión en gráficos es un ejemplo.
A continuación, pensemos en aprender una regla de actualización SGD
Hay muchos algoritmos de optimización que se utilizan en el aprendizaje profundo: SGD, Adam, RMSProp, RProp, LBFGS, etc.
Todo esto actualiza los pesos de su red para que sea un poco mejor que el paso de tiempo anterior. Todos tienen acceso al gradiente en cada parámetro.
Las personas han intentado hacer que una red neuronal aprenda una regla de actualización óptima, que se aproxima a una red neuronal en trabajos publicados inéditos y antiguos. No parece funcionar muy bien todavía.