¿Qué otras áreas de aprendizaje automático pueden reemplazar el aprendizaje profundo en el futuro?

Estoy de acuerdo con la predicción del Dr. Goodfellow de alejarse de una visión centrada en la optimización. Después de todo, gran parte del aprendizaje humano no parece tener el carácter de optimización. Más bien, gran parte de lo que aprendemos, es decir, gran parte de lo que termina en nuestra memoria a largo plazo es altamente específico, idiosincrásico, y obviamente no está relacionado con ninguna tarea práctica, por ejemplo, la clasificación. Este tipo de memoria, es decir, memoria detallada de experiencias específicas basadas en ocurrencias únicas (ensayos individuales, una sola vez), se llama memoria episódica y se contrasta con la memoria semántica , que es el conocimiento general de las clases, las reglas (incluidas las reglas probabilísticas) , etc., en otras palabras, el conocimiento de la estructura estadística del mundo, que el cerebro de alguna manera destila del flujo continuo de experiencias individuales.

Creo que el próximo gran avance en el aprendizaje automático (ML) será un cambio de paradigma en cómo se representa la información, específicamente una apreciación / realización por parte de la comunidad de ML de que el cerebro representa información con representaciones distribuidas dispersas (SDR) [que no es lo mismo como “codificación dispersa” (cf. Olshausen & Field)] en lugar de representaciones densas / totalmente distribuidas (FDR) o representaciones localistas (LR). En términos generales, GOFAI usó LR, los NN de los 80 usaron DDR, los modelos de probabilidad gráfica (GPM) de los 90, por ejemplo, Bayes Nets, volvieron en gran medida a LR, el aprendizaje profundo (DL) regresó en gran medida a DDR (aunque el abandono y el cálculo condicional son visibles como parciales se mueve hacia SDR), y los enfoques recientes de Neural Turing Machine (NTM) y Memory Network (MN), agregan un componente LR (el almacén de memoria) a las redes DL (que, nuevamente, esencialmente usan DDR). Sin embargo, se ha ido acumulando evidencia neuronal de que el cerebro representa información utilizando SDR, es decir, pequeños subconjuntos de neuronas elegidas de campos de codificación mucho más grandes representan conceptos. SDR es esencialmente sinónimo de “ensamblaje celular” de Hebb, o como los llama Rafael Yuste, “conjuntos”.

La razón más convincente por la que SDR se destacará es la eficiencia computacional. Específicamente, SDR admite un algoritmo para el cual la cantidad de pasos necesarios para almacenar un nuevo elemento y recuperar el elemento más cercano se mantiene fija a medida que crece la cantidad de elementos almacenados, lo que yo denomino complejidad de tiempo fijo (que se muestra en Rinkus 1996, 2010 , 2014, 2017). Hasta el momento, no se ha demostrado que ningún modelo DL, ni ninguna otra clase de modelo, incluidos los modelos de hash, por ejemplo, hashing sensible a la localidad, hashing semántico, hashing adaptativo, posean una complejidad de tiempo constante tanto para el almacenamiento (aprendizaje) como para la recuperación de coincidencias más cercanas . Con la creciente necesidad y oportunidad de extraer conjuntos de datos cada vez más grandes, la complejidad del tiempo computacional finalmente anula todas las demás consideraciones. Con este fin, mi enfoque de investigación actual es demostrar que explotar esta eficiencia de tiempo fijo de SDR junto con la composición jerárquica (recursiva) produce una verdadera complejidad de tiempo constante tanto para el almacenamiento como para la recuperación de coincidencias más cercanas, no solo para patrones puramente espaciales sino también para secuencias también, y con muy alta capacidad de almacenamiento. Ver la respuesta relacionada de Quora.

Claramente, DL ha estado derribando los puntos de referencia de clasificación ML y avanzando a pasos agigantados aprendiendo modelos generativos, como lo demuestra el éxito en los juegos, por ejemplo, AlphaGo y la traducción automática. Sin embargo, parece que todas las soluciones DL de última generación (SOA) requieren un paralelismo masivo de la máquina y, por lo tanto, mucha potencia. Por lo tanto, sugeriría que Kaggle aumente sus métricas de precisión de clase existentes con una métrica de eficiencia, por ejemplo, uso de energía total o tiempo de ejecución total de una sola CPU. La generalización a una métrica combinada de {precisión, eficiencia} serviría para enfocar a la comunidad de investigación hacia representaciones y algoritmos centrales, y creo que acentúa rápidamente las ventajas y el poder potencial de SDR.

El “aprendizaje profundo” se define en términos tan amplios que no estoy seguro de que pueda reemplazarse.

El aprendizaje profundo solo significa aprender varios pasos de una tubería de procesamiento, en lugar de aprender solo un paso. Desde este punto de vista, hay una explosión combinatoria en el número de algoritmos profundos en relación con el número de algoritmos poco profundos.

En 2006–2011, el “aprendizaje profundo” era popular, pero el “aprendizaje profundo” en su mayoría significaba apilar algoritmos de aprendizaje no supervisados ​​uno encima del otro para definir características complicadas para el aprendizaje supervisado.

Desde 2012, el “aprendizaje profundo” ha significado principalmente el uso de la propagación inversa para optimizar todos los parámetros en un gráfico computacional profundo que representa alguna función diferenciable.

Parece muy probable que pronto tengamos algoritmos que sean más bayesianos (en lugar de basarse en una estimación de un solo punto de los mejores parámetros), que usen más operaciones no diferenciables, etc. Probablemente todavía los consideraremos “profundos “Sin embargo, cuando nos detenemos a pensar si son” profundos “o no.

También creo que dejaremos de pensar mucho sobre la distinción entre “aprendizaje profundo” y otros tipos de aprendizaje. El aprendizaje profundo ya es tan común que ya no es muy exótico, no requiere una marca especial y esfuerzos de relaciones públicas para que sea aceptado, etc.

Es probable que se necesiten métodos bayesianos, particularmente para pequeños conjuntos de datos u observaciones raras. Además, las técnicas basadas en la topología y la geometría probablemente se integrarán en las tuberías de aprendizaje automático, ya que pueden capturar más características locales y globales en los datos que los algoritmos / métodos estadísticos de aprendizaje automático más tradicionales.

Gracias por el A2A; Voy a apuñalar a pesar de que Ian Goodfellow ya respondió …

Creo que vería técnicas de aprendizaje automático más tradicionales que reemplazan el aprendizaje profundo si el aprendizaje profundo se hubiera desarrollado primero porque existen mejores técnicas tradicionales de aprendizaje automático que el aprendizaje profundo para algunos problemas.

Por otro lado, el aprendizaje profundo realmente ha ayudado a abordar algunos de esos otros problemas en los que el aprendizaje automático tradicional ha fallado de alguna manera (reconocimiento de imágenes, traducción automática, etc.). En general, diría que ve algoritmos tradicionales de ML en cualquier lugar que no sea uno de estos problemas altamente complejos y especializados y aprendizaje profundo donde simplemente no es una mejor respuesta.

En general, DL parece algo similar en espíritu a los métodos de Monte Carlo. Monte Carlo reemplaza el razonamiento delicado con muestreo de fuerza bruta (sin considerar cosas más avanzadas como cambiar la medida). Y sin embargo, incluso en la forma más simple, a menudo funciona.

Necesitamos descubrir qué hay en DL que lo hace funcionar y tirar toda la pelusa. Claramente, confiar en un concepto tan débil como el gradiente desaparecerá tarde o temprano, tal vez toda la forma cambie.

También es importante darse cuenta de que, como está, no se está aprendiendo realmente. Aprender significa aplicar un concepto a situaciones nuevas, incluso simples. Por ejemplo, entrena una red para x ^ 2 y otra para x + y. Debería poder resolver x ^ 2 + y ^ 2 sin una nueva capacitación, esto debería ser una inferencia fácil usando dos modelos que aprendimos. Sin embargo, no veo cómo lograr esto sin volver a entrenar o probar todas las combinaciones posibles.

Si el futuro al que se refiere son los próximos diez años, quizás solo el nombre pueda cambiar. Los conceptos no cambian mucho, aunque hay arquitecturas novedosas que aparecen por todas partes. Aprendí esto en el campo de la base de datos: solo hay un mejor nombre para referirse a una tecnología, ya que no somos los mejores proveedores de nombres.

Bromas a un lado, tal vez las arquitecturas cambiarán y habrá un mayor enfoque en enfoques más diversos como Bayesian, como lo señaló Ian Goodfellow.

Siempre estoy de acuerdo con “Nada es permanente”. Por lo tanto, habrá un cambio en todo durante un período de tiempo. Entonces, cuando ingresas a cualquier tecnología, día a día habrá algunos cambios drásticos, ya sea que puede estar arriba o abajo, por lo que, en lo que respecta a ML, ha sido reemplazado por el aprendizaje profundo en casi pocas áreas. Esto también puede ser reemplazado por Data Science o Cognitive Computing o por IOT (Internet Of Things) en el futuro …