¿Qué opinas de la exageración actual sobre Deep Learning?

No creo que sea exagerado.

Ha llevado un par de décadas de esfuerzo persistente, pero redes neuronales muy grandes y complejas con antecedentes significativos han desatado el poder del aprendizaje de representación (RL) con resultados que son espectacularmente superiores a los obtenidos con características de entrada hechas a mano y algoritmos convencionales. Como explicaron Yoshua Bengio y Yann LeCun en su reciente tutorial de NIPS 2015 (http://www.iro.umontreal.ca/~ben…), el aumento dramático en el poder de cómputo y la cantidad y calidad de los datos de capacitación fue clave para el éxito de RL y aprendizaje profundo.

De vuelta a RL, es real. En los últimos años ha habido una serie de resultados innovadores recientes que pueden atribuirse a RL. Estos se han realizado en áreas como visión artificial, reconocimiento de voz, PNL y otras áreas. Todas estas áreas se caracterizan por el hecho de que las señales de entrada son señales sensoriales. RL aprende representaciones jerárquicas de características de estas señales sensoriales utilizando arquitecturas de Red Neural Profunda (DNN). Estas representaciones terminan funcionando mucho mejor que las características de ingeniería humana y altamente refinadas. No es que importe, pero tales arquitecturas se parecen remotamente a cómo los humanos aprenden y realizan tareas cognitivas en el cerebro.

En Facebook, mi amigo y colega Ahmad Abdulkader, por ejemplo, se ha asociado con nuestro equipo de anuncios para crear sistemas que detecten automáticamente anuncios con imágenes que violen nuestras políticas (por ejemplo, que contengan violencia, alcohol o armas). El uso de Deep Learning para esta tarea ha producido mejoras dramáticas en la precisión y, en última instancia, protegió a la comunidad de Facebook de contenido potencialmente ofensivo. Nuestro equipo de Computer Vision ha creado una plataforma de autoservicio utilizada por docenas de equipos para capacitar modelos de predicción especializados sobre la base de representaciones de imágenes y videos aprendidos por el aprendizaje profundo. Manohar Paluri puede contarle mucho más sobre las aplicaciones de aprendizaje profundo para visión artificial en Facebook.

Todavía hay áreas donde RL no ha logrado avances, en particular donde las entradas no son señales sensoriales. Todavía está por verse si puede darse cuenta de tales avances.

Habiendo dicho todo eso, la academia, la industria y los medios deben ser cautelosos sobre exagerar los resultados, leer demasiado sobre el futuro del tipo de “inteligencia” que puede aportar a las máquinas y advertir sobre las graves consecuencias si las máquinas de alguna manera toman el control. Esto está más cerca de la ciencia ficción que de la realidad 🙂

Cada vez que las personas (re) descubren una nueva herramienta, ven el mundo como clavos. Piense en automóviles de propulsión nuclear, volando cohetes al trabajo o llevando máquinas de vapor al espacio. Esta es una consecuencia necesaria y deseable de cualquier tecnología importante. Deseable porque alienta a los extraños a mirar las herramientas y aplicarlas de maneras nuevas y deliciosas.

Una pequeña razón de por qué estamos viendo esta explosión de algoritmos ahora (aquí hay una comparación con la Explosión del Cámbrico) es la tormenta perfecta de grandes datos:

  • Los discos se están haciendo más grandes y ahora podemos grabar casi todo lo que queramos (audio, video, sensores, interacciones). Y estos datos están disponibles en grandes centros de servidores de Google, Amazon, Microsoft, Facebook, Baidu, Twitter y cientos de otras compañías.
  • La memoria es comparativamente escasa (todavía puede comprar computadoras con 2GB como si fueran los 90).
  • Las CPU no están escalando tanto como solían hacerlo, pero hay un mercado masivo de jugadores de computadoras que impulsan las GPU (por $ 500 ahora puedes comprar una tarjeta 5TFLOPS).
  • Esto hace posible hacer cosas computacionalmente muy caras a un ritmo relativamente asequible, con mucho éxito. Por ejemplo, los resultados de la competencia ImageNet muestran que la visión por computadora ahora es bastante decente. Aquí hay un ejemplo de lo que puede hacer en términos de respuesta visual a preguntas. Y esto había llevado a una gran emoción y progreso (por ejemplo, el reciente avance de AlphaGo).

El resultado ha sido una gran afluencia de dinero, personas y datos. El dinero hace que sea más fácil financiar investigaciones, construir sistemas y realizar experimentos. La afluencia de mucha gente, a menudo aquellos que no tenían idea de lo que estaban haciendo, condujo a una sorprendente explosión de ideas. Si ataca un problema sin problemas previos, probará las cosas de manera diferente. La mayoría de las veces esto es estúpido. Pero si suficientes personas prueban locuras, algunas funcionarán. Y esto es precisamente lo que sucedió con el aprendizaje automático. Es un soplo de aire fresco extremadamente bienvenido. Sí, se reinventan muchas cosas (por ejemplo, los LSTM son esencialmente modelos autorregresivos variables latentes con algunos ajustes para lidiar con los gradientes que desaparecen). Pero esa es una consecuencia necesaria. Y esto es lo que hace que el aprendizaje automático sea muy emocionante en este momento.

¿Resolverá todos los problemas que promete? Es casi seguro que no. Pero al menos ahora todos entienden la necesidad de analizar los datos y usar algoritmos en lugar de reglas pirateadas codificadas a mano para inferir cosas. Y ahora las personas están aparentemente más dispuestas a aceptar el hecho de que el mundo no es lineal (una parte importante de la mejora del uso del aprendizaje profundo en la publicidad computacional es el hecho de que esto reduce la dependencia de la ingeniería de características y los modelos lineales). Y con buenas herramientas (MXNET, Tensorflow, Caffe, Torch, Theano) y hardware barato (GTX 750) disponible, es más fácil que nunca comenzar.

La pregunta obvia es: ¿me preocupa que la IA se apodere del mundo? Realmente no. Aquí es donde los hechos cambian a bombo. Pero para muchos trabajos de baja calificación (conductores de camiones, operadores de líneas de montaje, limpiadores) las cosas se volverán muy dolorosas ya que es probable que los algoritmos hagan un mejor trabajo. Y la única forma de solucionar esto es mediante una mejor educación.

No creo que Deep Learning sea una exageración. Muchas respuestas geniales aquí que detallan los resultados de Deep Learning. Me gustaría destacar ciertas tendencias que Deep Learning ha hecho populares que beneficiarán a todos los paradigmas de Machine Learning.

Hardware de álgebra lineal rápida

El aprendizaje profundo requiere operaciones matriciales realmente rápidas. Se ha convertido en la función de forzar la innovación en el ámbito de los aceleradores de álgebra lineal personalizados. Hoy en día, no necesita un clúster masivo para realizar investigaciones de ML. Puede construir una máquina basada en GPU y puede comenzar a manejar modelos de gran tamaño desde la comodidad de su sala de estar. Las grandes compañías compiten entre sí para hacer las cosas aún más fáciles y accesibles.

  • Características de CUDA 9 reveladas: Volta, grupos cooperativos y más | Paralelo Paralelo
  • Una mirada en profundidad a la primera unidad de procesamiento de tensor (TPU) de Google | Blog de Google Cloud Big Data y Machine Learning | Google Cloud Platform
  • Intel busca un nuevo chip para impulsar la próxima era de la IA

El bit de alto orden es que el álgebra lineal se está volviendo más rápido y usarlo se está volviendo más barato. Esto beneficiará a todo lo que use Álgebra Lineal.

Software de álgebra lineal rápida

Esta es la edad de oro de los marcos de Deep Learning. Algunos ejemplos:

  • Theano
  • TensorFlow
  • MXNet
  • PyTorch

Todos estos marcos se comercializan como motores de aprendizaje profundo. Pero, son motores de álgebra lineal. Se pueden usar para implementar cualquier tipo de modelo. En el futuro, si quiero multiplicar 2 matrices, seguramente usaré uno de estos tipos.

Lenguaje Común del Aprendizaje Automático

Hace unos años, era muy difícil para la investigación de ML en Speech, Vision y Text mezclarse entre sí. Todos tenían su propio lenguaje y modelos. Esto cambió con Deep Learning. Los modelos de aprendizaje profundo para discurso, visión y texto se basan en redes neuronales y utilizan los mismos conceptos fundamentales. Esto está acelerando lo que puede hacer Machine Learning. Por ejemplo, alineaciones profundas visual-semánticas para generar descripciones de imágenes.

El intercambio de conocimientos

Podría estar sesgado aquí porque me uní al club de “aprendices para la vida” alrededor de 2013 y para ese momento Deep Learning ya era muy popular. Sin embargo, creo que la mayoría de los grupos de Deep Learning en todo el mundo pasan mucho tiempo compartiendo su código y educando a otros con excelentes tutoriales y blogs. Recientemente recogí algo de material aquí.

En resumen, Deep Learning ha acelerado el desarrollo de hardware y software de Álgebra Lineal, demostró la importancia de tener el mismo lenguaje para describir modelos de diferentes dominios y promovió la cultura de compartir código y educar a otros. Estas tendencias beneficiarán a ML en general incluso después de que Deep Learning haya desaparecido.

No creo que sea solo una exageración. Piense en el enorme cuerpo de investigación sobre redes neuronales artificiales que estaba esperando para ser aplicado, esperando que las computadoras se vuelvan lo suficientemente potentes y esperando un par de “trucos” de optimización que mejoraron la eficiencia del aprendizaje. Ahora se pueden aplicar masivamente a la visión por computadora, el habla y muchas otras aplicaciones. Creo que esto es muy poderoso.

“Aprendizaje profundo” no es solo un buen nombre de marketing, los métodos de aprendizaje automático basados ​​en redes pueden resolver grandes aplicaciones complejas, ya que pueden aprender representaciones internas. Todavía hay muchas preguntas abiertas para llegar a la inteligencia artificial “real”, como cómo buscar la arquitectura correcta.

El peligro siempre es elevar las expectativas demasiado altas, y después de un período de alta financiación, hay decepción y una gran reacción. Lo hemos vivido varias veces. Con suerte, el progreso será lo suficientemente constante como para evitar eso. Estoy muy impresionado por los resultados de AlphaGo. Esta vez, con suerte, estamos en el camino correcto para vencer los problemas realmente difíciles de la Inteligencia Artificial.

Esto no significa que otros tipos de técnicas de aprendizaje automático no tengan su lugar. Los modelos lineales, los métodos de kernel, los bosques aleatorios e incluso los Naive Bayes son muy útiles. Mira los resultados recientes del desafío AutoML. En la ronda 3, un competidor que usara Naive Bayes habría ganado, NADIE logró convertir los resultados en una prueba a ciegas en 5 nuevos conjuntos de datos. El es porque el tiempo y la memoria eran limitados. Convertir los resultados rápidamente en un nuevo conjunto de datos desconocido sigue siendo algo en lo que los métodos de aprendizaje profundo no son buenos.

Estoy muy impresionado por la precisión predictiva que las redes neuronales profundas han podido demostrar en tareas del mundo real. Ha habido un gran interés en este campo que atribuiría a dos aspectos:

  1. Las redes neuronales tienen una conexión con el procesamiento de la información en el cerebro y la adaptación de sus pesos en respuesta a los datos de entrenamiento es una reminiscencia de cómo funciona nuestra propia inteligencia (puede).
  2. El algoritmo para adaptar los pesos en respuesta a los datos de entrenamiento es fácil de entender, es robusto y se puede ampliar para permitir que estas redes se entrenen en colecciones de datos muy grandes (en comparación, los métodos de inferencia en modelos probabilísticos y métodos de kernel son mucho menos robusto y más difícil de escalar).

Creo que las redes neuronales profundas tienen algunos desafíos a la hora de incorporar el conocimiento sobre el proceso que podría haber generado los datos y cómo definir la arquitectura de red que da como resultado los modelos más precisos. Creo que ambas son áreas fantásticas para los desafíos de investigación.

En la historia relativamente corta del aprendizaje automático como ciencia, ha habido varias “exageraciones” (léase: métodos y enfoques muy populares), como máquinas kernel, modelos gráficos y potenciadores. Lo más importante que debo recordar en este aspecto: ningún algoritmo único será el mejor algoritmo de aprendizaje (el teorema de No-Free-Lunch) y cada bombo es seguido por otro bombo.

No, no está exagerado. El aprendizaje profundo básicamente se refiere al concepto de evolución de las redes neuronales. Machine Learning introdujo este concepto y parece haber funcionado bastante bien. Los resultados del aprendizaje profundo son notablemente mejores y actualmente está bajo investigación debido a su perspicacia prometedora para una mejor previsibilidad. Básicamente, ahora, el enfoque del aprendizaje profundo está cambiando hacia aumentar el nivel de potencia y precisión computacional a través de 2 conceptos más amplios:

  • Redes neuronales recurrentes que se ocupan de la propagación hacia atrás e interactúan a través de un conjunto más grande de nodos como motor de procesamiento del sistema de entrada-salida. Las GPU y otros sistemas distribuidos se están utilizando actualmente para procesar este tipo de cálculo y producir un resultado más rápido y sobre la marcha.
  • Redes neuronales convolucionales que podrían considerarse como un mecanismo para factorizar muchos parámetros a las neuronas en varios niveles. Esto a su vez puede aumentar la precisión, ya que tiene en cuenta un espectro más amplio de información.

El aprendizaje profundo es un avance sorprendente en el procesamiento de imágenes. Creo que tiene el potencial de dejar obsoletas muchas de las técnicas personalizadas cuidadosamente diseñadas que se han propuesto en los últimos 30 años para muchas aplicaciones.

Dicho esto, todavía no está listo para reemplazar todo en el procesamiento de imágenes. Por ejemplo, un problema que he encontrado al aplicar el aprendizaje profundo a mis problemas es que aún es difícil usarlo cuando tienes datos de entrenamiento limitados. Hay formas de evitar este problema, pero no hay soluciones listas para usar (todavía).

Entonces: potencial increíble, no completamente maduro.

El aprendizaje profundo es real porque ha permitido muchos cálculos que eran imposibles o poco prácticos hace varios años. (Etiquetado de objetos en imágenes, reconocimiento de rostros, victoria alfa Go, etc.) Por otro lado, puede contar con los medios para obtener los detalles incorrectos y tergiversar lo que realmente se ha logrado y cuál es el potencial. Por ejemplo, me estremezco cuando escucho que “las computadoras ahora tienen intuición” (proveniente del juego de ir que requiere intuición). Estoy seguro de que mucha gente va a entender totalmente mal eso para decir algo como: “oh, ahora, cuando estoy escribiendo demasiado en el teclado, mi computadora puede intuir que estoy enojado con mi novia” o algo así. Así que simpatizo si suena como bombo.

Nota: la intuición significa en el caso del juego de go que el jugador (y el software también) no siempre puede decirle una razón lógica para un movimiento. Eso es todo.

Creo que es muy emocionante. Claramente, las expectativas son muy altas en este momento. Está claro que la generación actual de algoritmos no podrá cumplir con todas esas expectativas, por lo que ahora nos hemos involucrado en una carrera para ofrecer nuevas tecnologías lo suficientemente rápido como para saciar el apetito de la sociedad por avanzar.

Es un juego muy peligroso, algo parecido a un perro persiguiendo su cola. Cuanto más rápido avancemos en términos de impulsar la tecnología, mayores serán las expectativas.

Así que no creo que haya ningún peligro en predecir que habrá una reacción violenta en algún momento (¿un invierno profundo?). Parece sistémico en la sociedad construir algo para derribarlo. Entonces, cuando un campo de investigación académica comienza a desarrollar su propio folklore, probablemente debería preocuparse.

Dicho esto, creo que este tipo de exageraciones son realmente importantes. Generan entusiasmo y conducen el campo hacia adelante. A veces sobre el terreno que se ha cubierto antes (de hecho, a menudo sobre el terreno que se ha cubierto antes) pero con nuevos ojos y diferentes tecnologías. Hay muchas más personas involucradas en esta visita a la red neuronal que en la anterior en los años 80 y 90. Vienen con computadoras más rápidas y más datos. Sin embargo, ¡las limitaciones de esos modelos no han cambiado fundamentalmente!

Entonces, ¿qué hacemos al respecto? Bueno, algunos de nosotros disfrutaremos el viaje mientras dure (especialmente aquellos que se unieron a la cola temprano y están en la parte delantera de la montaña rusa), pero el resto probablemente debería estar pensando en dónde podríamos tener que ir a continuación (las colas en el registro ¡el canal parece corto!).

He estado en el aprendizaje automático el tiempo suficiente para saber no solo que el progreso es lento sino que también hay saltos de vez en cuando.

El aprendizaje profundo parece ser uno de esos saltos, pero quizás no sea tan grande como uno podría esperar.

En una conferencia sobre redes neuronales, alrededor de 1986, nos dijeron que para el año 2000, el 50% de la informática sería redes neuronales; el año 2000 vino y se fue, ¡y no creo que estemos cerca del 50% todavía!

Sin embargo, si uno dice interminablemente “no, no sucederá”, entonces será recordado por su error, porque algún día habrá un salto realmente grande seguido de una aceleración que puede ser difícil de comprender.

Ha habido un progreso indudable, pero cuanto más envejezco, menos paciente soy.

Las mejoras en la capacidad y velocidad de la memoria pueden explicar parte de este progreso, pero también se están logrando mejores algoritmos y una mejor comprensión de los problemas.