Para citar a Ilya Sutskever:
Los modelos estadísticos convencionales aprenden patrones simples o grupos. En contraste, los LDNN aprenden computación, aunque sea una computación paralela masiva con un número modesto de pasos. De hecho, esta es la diferencia clave entre los LDNN y otros modelos estadísticos.
Fuente: Una breve descripción del aprendizaje profundo
- Intuitivamente, ¿cómo funcionan los multiplicadores de Lagrange en SVM?
- ¿Qué sucede cuando las computadoras aprenden a componer música mejor que los humanos?
- ¿Cuáles son los tres problemas principales en el pronóstico de energía eólica y solar que requieren atención urgente utilizando algoritmos de aprendizaje automático?
- Además de experimentar emoción, ¿qué cosas puede hacer un niño humano que una computadora no puede hacer?
- ¿Cuáles son las diferencias entre un científico de aprendizaje automático y un científico de datos?
En el aprendizaje automático basado en estadísticas típico, uno propone un modelo (algo simple como una línea recta o algo complejo como una red de Bayes) y luego utiliza datos para estimar parámetros mediante regresión o propagación de creencias. Sin embargo, estos modelos asumen una “estructura” fundamental para el modelo generativo o discriminativo. Se puede intentar aprender la estructura (es decir, decidir cuántos factores usar en un gráfico de factores), pero luego se debe asumir una distribución previa en los hiperparámetros (es decir, un Beta antes de un Bernoulli). Pero, ¿qué sucede si desea aprender automáticamente los parámetros para los hiperparámetros? Son tortugas hasta el fondo.
Las redes neuronales son bastante diferentes porque realmente no involucran ningún modelo estadístico explícito. Por el contrario, realizan una serie de transformaciones en las entradas, que pueden considerarse como “cálculo”. La arquitectura de una red convolucional (popular en las arquitecturas actuales) supone muy poco sobre la estructura del modelo generativo, solo que la entrada tiene una jerarquía de características (algunas características pequeñas, algunas características grandes). Cualquier aproximador de función universal entrenable debería funcionar más o menos de manera similar a una red neuronal.
Con respecto a la precisión / rendimiento: no, las redes neuronales no son tan diferentes de las técnicas existentes. De hecho, los árboles impulsados aún rivalizan con el rendimiento de los DCNN. Escuché que otras técnicas de big data que emplean trucos de aumento de datos similares utilizados por convnets también funcionan bastante bien.
Sin embargo, el punto del Sr. Sutskever es bastante sutil, y creo que depende de si usted cree que un “programa de computadora” es fundamentalmente más expresivo que un modelo estadístico. Mi creencia personal es que otras técnicas estadísticas en el futuro comenzarán a incorporar aspectos de la computación. Deep Learning implementa la “computación” al apilar las no linealidades simples en otras más complejas, pero es posible que se puedan usar no linealidades más complejas (es decir, un programa diseñado explícitamente) para una tarea en particular.
A medida que las redes recurrentes se vuelven más prominentes, tal vez habrá un interés considerable en el futuro hacia la teoría de autómatas celulares, que une la computación con sistemas dinámicos (discretos).
¡Qué momento tan emocionante para estar!