No creo que una comprensión concisa de los fundamentos teóricos (en el sentido matemático) del aprendizaje profundo esté casi completa en este momento. ¡Pero no vemos mucha gente quejándose ya que funciona muy bien en la práctica del mundo real! Por otro lado, esta es una gran oportunidad para que las personas brillantes brillen realmente con grandes contribuciones teóricas.
Yo diría que “aprender” en ML o DL se puede ver de dos maneras interesantes: la forma discriminativa y la forma generativa de modelar. Creo que la palabra modelado es una forma más poderosa de comunicar estos conceptos que el aprendizaje. El modelado transmitiría inequívocamente que lo que estamos haciendo es científico / matemático, y no algo de arte negro.
- ¿Cuáles son las herramientas / software más utilizados para el aprendizaje automático / big data?
- ¿Cómo se usa una capa oculta soft-max en una red neuronal profunda?
- ¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?
- ¿Cuál es mejor LMS o descenso más empinado?
- ¿Qué está haciendo Wavii con el aprendizaje automático para redefinir cómo se realiza la búsqueda en la web?
La forma discriminativa de mirar ML dice: modelar una función que predeciría la salida dada la entrada, observando un buen número de pares de entrada / salida. Este también es un ejemplo de aprendizaje supervisado.
La forma generativa de mirar ML dice: dame una distribución que mejor modele los datos en tu espacio muestral. Una vez que tengo una distribución, puedo hacer muchas cosas interesantes, como “generar” datos nuevos en algún punto diferente o dar datos parciales autocompletarlos, etc. Estos son algunos de los ejemplos de aprendizaje no supervisado.
Actualmente, no tenemos una idea clara de cómo se puede modelar la función / distribución de la manera más precisa y eficiente con algunas buenas garantías. Todavía no entendemos la “aerodinámica” de la inteligencia. Idealmente, nos gustaría una teoría completa como la Teoría de Fourier (explica completamente cómo cualquier función continua periódica / no periódica puede representarse en términos de algunas funciones básicas estándar, dando lugar a la poderosa noción de espacios de funciones ) o la serie Taylor (explica bien cómo el acceso dado al valor y las derivadas de una función en un punto único en particular, puede construir la función completa ). Lo más emocionante de estas teorías es que se han generalizado a funciones escalares / vectoriales de vectores, formas diferenciales, tensores y demás.
Hay muchos indicios de que hay una teoría hermosa y profunda que subyace a las Redes Neurales Profundas. DL también se ha llamado aprendizaje de representación, porque las representaciones de base intermedia se aprenden durante el entrenamiento que se usa durante la inferencia. Pero una teoría sólida que explique cuáles son estas representaciones conduciría a mejores diseños de arquitecturas de aprendizaje profundo.