Lo primero, y lo más importante, darse cuenta sobre el aprendizaje profundo es que no es un tema “profundo”, lo que significa que es un tema muy “superficial” con casi ninguna teoría subyacente. No hay garantías de convergencia (ya que, después de todo, estamos hablando de optimización no lineal en espacios de alta dimensión), y no hay garantías de rendimiento de ningún tipo (por ejemplo, en comparación con lo que obtienes con otras áreas del aprendizaje automático, como los métodos de kernel, dispersos modelos lineales, etc.). Es esencialmente como trabajar la madera sin física. Si mezclas este tipo de esmalte con ese tipo de madera, obtienes este tipo de efecto. La razón por la que invariablemente tiene que haber un futuro más allá del aprendizaje profundo es que no se puede construir una ciencia sólida de ingeniería del aprendizaje automático con ladrillos hechos de heno. Como dijo una vez Vladimir Vapnik, “Lo más práctico del mundo es una buena teoría”, y eso actualmente no está disponible en el aprendizaje profundo. Si el aprendizaje profundo es la mejor solución que puede hacer la comunidad de aprendizaje automático, como miembro portador de la tarjeta de esta comunidad de investigación durante más de 30 años, ¡debo decir que estamos en serios problemas!
Solo tomemos un ejemplo, la ira actual sobre los modelos de confrontación generativa o GAN. Hay más de 500 documentos sobre este tema, y casi 3 docenas de variantes de GAN con más apareciendo cada semana. Sin embargo, apenas hay documentos que muestren 1) si las GAN convergerán de manera confiable cuando se capacita (¡las GAN originales no lo hacen!) 2) cuál es la complejidad de la muestra de las GAN (nadie lo sabe) 3) lo que las GAN pueden y no pueden hacer. Hasta donde yo sé, hay 1–2 artículos que intentan dar una teoría de las GAN, un artículo particularmente bueno de Sanjeev Arora y sus colegas, que es en gran medida un resultado negativo. Muestra que el modelo GAN original no converge, pero que un modelo de generador múltiple / discriminador múltiple modificado podría converger, en un sentido muy débil. Sin embargo, esto no ha disminuido la emoción sobre este modelo, ni mucho menos.
También hay una sensación colectiva de pérdida de la realidad cuando la gente se entusiasma con modelos como las GAN. Estos modelos tomaron miles y miles de iteraciones para converger (cuando lo hacen, y a menudo no lo hacen), y cada iteración requiere muchos pases a través de los datos. Al final del día, quemas millones de ciclos de CPU y te preguntas si después de quemar toda esa energía: ¿vale la pena el juego? ¿A dónde nos lleva toda esta energía? ¿Nos está llevando a una teoría sólida basada en la ciencia de cómo construir una teoría del aprendizaje no supervisado? La gran mayoría de los documentos de GAN son en gran medida empíricos, y muestran imágenes bonitas de lo que puede hacer una variante de GAN, pero las métricas a menudo son inexistentes o algo artificiales.
- ¿Cuáles son algunos algoritmos de aprendizaje automático que puedo aprender sin cálculo?
- Cómo estudiar TensorFlow
- Utilizando la regresión logística y la regularización L1 / L2, ¿debo preocuparme por la selección de características?
- Cómo configurar un laboratorio de innovación de ciencia de datos
- ¿Cuál es la teoría detrás de ingresar una imagen en una red neuronal?
Por lo tanto, muchos de nosotros en el campo realmente esperamos una vida más allá del aprendizaje profundo, donde no solo podamos construir impresionantes sistemas de aprendizaje con fundamento empírico, sino que también tengamos una teoría sólida subyacente.
Si desea un ejemplo de una ciencia verdaderamente “profunda”, no busque más que el premio Nobel de este año por el diseño de detectores LIGO, que completa un esfuerzo de 100 años para detectar ondas gravitacionales de la teoría de la relatividad general de Einstein. Ahora podemos detectar colisiones entre agujeros negros a 2 mil millones de años luz de distancia liberando más energía en una colisión que toda la energía de todas las estrellas en el universo observable. Y hay una cantidad muy sustancial de matemática no trivial que entró en la construcción de los detectores LIGO y en avances en la teoría de la relatividad general.
Así es como debería ser una verdadera teoría del aprendizaje “profundo”. Estoy seguro de que algún día, el aprendizaje automático llegará allí, pero tomará muchos años de esfuerzo, y los físicos nos proporcionan una inspiración de lo que se puede lograr.