Fundamentalmente, no hay nada nuevo en el descenso de gradiente de hace ~ 400 años (sí, Gauss y Newton, ¿verdad? ¡Lo siento!).
En realidad, tenga en cuenta que nuestra intuición y heurística sobre esos modelos se acumulan lentamente todos los días. Aunque el aprendizaje profundo sigue siendo tan fácil de entender, observando las redes neuronales después de años de desarrollo continuo, tenemos algunas diferencias que son notables:
0) Más capas hace que sea más práctico aprender modelos útiles. Encontramos mejores soluciones de búsqueda más rápida de parámetros para modelos más profundos. Dado que confiamos en la universalidad de los aproximadores de capas ocultas individuales, no buscamos mucho más que eso.
- ¿Cuáles son los documentos de lectura obligatoria en AI / ML que trazan los principales desarrollos en el campo en los últimos 50 años?
- Cómo comenzar con el desarrollo de Inteligencia Artificial usando C #
- ¿Cómo se puede construir la IA de Harold Finch (La máquina) a partir de una persona de interés?
- ¿Crees que la IA puede resolver cualquiera de los problemas del milenio antes que los humanos?
- En una simulación de la Red Neural Spiking usando el modelo Izhikevich, ¿qué inhibe la activación de la neurona más de una vez por espiga?
1) Técnicas de inicialización más inteligentes. El entrenamiento previo con codificadores automáticos, máquinas de boltzman restringidas, radio espectral restringido para redes recurrentes y demás, ayudó mucho a iniciar la red en posiciones más favorables. Si recuerda que con entradas correlacionadas tenemos deformaciones y valles estrechos en la superficie de costos que ralentizan la optimización, podrá imaginar la importancia de una buena técnica de inicialización.
2) Diferentes funciones de activación. La unidad lineal rectificada max (0, x) (y maxout) en lugar de Tanh y Sigmoid ayuda.
3) Tarea arquitecturas “conscientes”. Las redes neuronales convolucionales y recurrentes son las ideas para explotar las dependencias espaciales y temporales, respectivamente. Eso también ayudó mucho. Pero tenga en cuenta que ambos existen desde “siempre”, acabamos de aprender a usar que mejor, ej. usando la agrupación máxima después de las capas conv y 1) y 2). Tenga en cuenta que usar esas arquitecturas, IHMO, es solo una “ingeniería manual” leve en comparación con la definición de sus propios vectores de características.
4) Técnicas de regularización fortuitas como la deserción. Pero no olvide el recorte de gradiente para RNN también …
5) tasas de aprendizaje adaptativo (rmsprop, adam, adagrad, adadelta …). Esto también hace que la optimización sea consciente de las correlaciones intrínsecas de los datos. Esos métodos nos ayudan a determinar la forma local de la superficie de optimización y a encontrar mejores direcciones para la adaptación.
6) Más datos y GPU. Esto no puede ser olvidado. Pero creo que esto no es todo. A menos que alguien resuelva un problema importante como Imagenet con una sola capa oculta MLP totalmente conectada de una manera práctica, no podemos reconocer Big Data / Computación como el aspecto más importante de Deep Learning.
También tenga en cuenta que cuando se acerca por primera vez al aprendizaje profundo en la práctica, incluso si tuvo un entrenamiento de redes neuronales y se fue a los núcleos como lo hice, las cosas pueden parecer un poco extrañas al principio. Antes, todo lo que pensábamos que podíamos hacer era probar varios números de neuronas ocultas, ahora abundan las opciones y los buenos resultados casi parecen magia negra para el ojo inexperto.
Por lo tanto, creo que decir que todo lo que es diferente es más datos y computadoras más rápidas (o cualquier otro hecho individual anterior) lo llama con poca antelación y no captura el panorama general. Tampoco es ser consciente de la naturaleza de los hechos históricos. Quiero decir, ninguna Roma fue construida en un día. Esto también es un hecho para las construcciones de conocimiento. Si obtuviéramos todas las GPU y conjuntos de datos que tenemos hoy a los expertos de Neural Nets de hace 20 años, todavía les llevaría unos años descubrir todo lo que tenemos hoy y lograr los mismos resultados.