El aprendizaje profundo es una clase de métodos y técnicas que emplean redes neuronales artificiales con múltiples capas de funcionalidades cada vez más ricas.
Las principales clases de redes neuronales profundas incluyen redes de retroalimentación con capas de convolución y agrupación. No tienen noción de secuencia y las entradas y salidas se suponen independientes. Por el contrario, en las redes neuronales recurrentes y recursivas, las salidas dependen de los estados previos del cálculo.
Como Jack Rae mencionó en su respuesta, las redes neuronales profundas ganaron importancia repentinamente alrededor de 2012 cuando los modelos profundos lograron superar los enfoques más avanzados en problemas tradicionales de aprendizaje automático, como la clasificación de imágenes y el reconocimiento de voz.
- ¿Por qué el Servicio Meteorológico Nacional no usa inteligencia artificial para predecir el clima?
- Con toda esta charla sobre IA y aprendizaje profundo, ¿los bots sufrirán el síndrome HAL 9000?
- ¿Pueden las computadoras y el software de AI eliminar a los contadores? Si puede, ¿cuándo?
- ¿Cuál es la diferencia entre el aprendizaje semi-supervisado y el aprendizaje híbrido supervisado-no supervisado?
- ¿Crees que la IA eventualmente se rebelará contra los humanos?
Estos resultados generaron un gran revuelo, entusiasmo y actividad basados en la comprensión de que tales métodos aprovecharon de manera muy efectiva cantidades masivas de datos en grandes compañías tecnológicas como Google, Facebook y otras.
Poco después, en 2013, Tomas Mikolov publicó el método word2vec para la inserción de palabras que rápidamente ganó un amplio reconocimiento, tanto académicamente como en los círculos populares. Aunque word2vec es técnicamente un enfoque superficial, su novedad y su sorprendente poder sirvieron como un gran ejemplo de lo que pueden hacer los nuevos modelos. También resultó muy útil como un paso de preprocesamiento para ser utilizado como capa de entrada en redes más complejas.
No mucho después de eso, comenzaron a aparecer ejemplos de redes neuronales recurrentes efectivas, por ejemplo , “Eficacia irrazonable de las redes neuronales recurrentes” de Andrej Karpathy.
Ambos ejemplos comparten una propiedad clave de ser simple y fácil de entrenar en datos fácilmente disponibles. Para word2vec, cualquier corpus de decenas o cientos de millones de palabras funcionará bien, produciendo modelos con propiedades sorprendentes.
Dichos conjuntos de datos no son solo provincias de grandes empresas tecnológicas o grupos de investigación académica, sino que también pueden crearse mediante métodos sencillos, como rastrear Internet o utilizar resultados abiertos disponibles públicamente, como Common Crawl. Un solo rastreo mensual de Common Crawl incluye texto de más de mil millones de páginas, que sería comparable o más grande que el modelo word2vec de referencia de Google capacitado en 100B palabras de Google News con nombres de Freebase.
Esto no es una crítica al modelo de Google, por el contrario, es genial que lo hayan publicado y compartido abiertamente, para estimular más investigación y actividades. Mi punto es que se pueden crear otros modelos potentes sin mucho esfuerzo.
Los ejemplos de RNN como el de Andrej Karpathy también se pueden ejecutar en entradas fácilmente disponibles, por ejemplo , su sorprendente demostración del código fuente de Linux.
Todos estos esfuerzos crearon una tremenda actividad y entusiasmo no solo entre un grupo selecto de desarrolladores e investigadores, sino también entre muchos desarrolladores independientes más diversos y personas intrigadas y curiosas por estos conceptos (como yo).
No se necesita más que una buena caja con, por ejemplo, CPU Core i7, 32 GB o más de RAM, y una buena tarjeta GPU Nvidia, como la recién lanzada serie GTX10x0, para estar rápidamente en funcionamiento. Se necesitan aproximadamente $ 30 por pop y unos días para realizar un procesamiento simple de una única ejecución mensual de Common Crawl en Amazon AWS (asegúrese de usar instancias puntuales, de lo contrario, ¡será hasta 10 veces más!).
En resumen, el aprendizaje profundo surgió rápidamente de la nada al superar los enfoques tradicionales de aprendizaje automático y al surgir la comprensión de que muchas redes neuronales profundas pueden ser entrenadas y experimentadas, y no solo unos pocos investigadores en grandes compañías tecnológicas. academia
En ese sentido, el campo está abierto y la diversión apenas comienza 🙂