¿Cuáles son algunos desarrollos interesantes pero pasados por alto en la investigación de ML?

Hay muchas buenas ideas que se propusieron durante la locura de las redes neuronales de 1987-1995 que se han olvidado. Algunos de ellos deberían ser revisados.

Algunos de mis colegas de FAIR organizaron un divertido taller en ICML titulado “Regreso al futuro”: nnb2tf

Aquí hay otra respuesta de mi colega de FAIR, Armand Joulin:

Recientemente, el campo de la inferencia causal ha estado haciendo un progreso muy prometedor, pero se ha mantenido un poco fuera del radar.

La inferencia causal tiene como objetivo descubrir las relaciones de causa y efecto entre diferentes variables. Comprender la estructura causal de un sistema permite predecir qué sucedería si se modificaran algunas de sus variables. Es una forma natural de razonamiento que permite la predicción de eventos que quizás nunca haya observado (por ejemplo, ¿qué pasaría si Neo hubiera tomado la píldora azul?).

Esta línea de trabajo no es en absoluto nueva (“Causalidad: modelos, razonamiento e inferencia” de J. Pearl en 2000), pero recientemente ha recibido mucha atención de investigadores de ML. Aquí hay algunos puntos de entrada para comenzar a leer sobre este tema:

El trabajo del grupo de Bernhard Schölkopf en el Instituto Max Planck (Grupo de Inferencia Causal)
“Sistemas de razonamiento y aprendizaje contrafactual: el ejemplo de la publicidad computacional”, Bottou et al., JMLR 2013 (documentos: bottou-jmlr-2013 [leon.bottou.org]). Leon Bottou hizo este trabajo mientras estaba en MSR y ahora está en FAIR.
O más recientemente, una aplicación para la visión por computadora: “Descubriendo Señales Causales en Imágenes” por David Lopez-Paz, Robert Nishihara, Soumith Chintala, Bernhard Schölkopf, Léon Bottou ([1605.08179] Descubriendo Señales Causales en Imágenes) “. David, Soumith y Léon están todos en FAIR, y Robert era un interno.

De hecho, si desea que un robot (o algún otro agente de IA) aprenda a actuar en el mundo, tiene que poder predecir dónde y cómo actuar para tener el efecto deseado. Hay muchas sombrillas en la calle de Nueva York cuando llueve, pero quitar las sombrillas no detendrá la lluvia. Descubrir las relaciones causales es una habilidad necesaria de un agente verdaderamente inteligente.

¿Por qué las redes neuronales recurrentes no pueden ampliarse bien?

¿Cómo funciona el texto predictivo?

Cómo calcular el gradiente W en una red neuronal

¿Qué es el "aprendizaje de refuerzo de múltiples agentes"?

En un problema de optimización no convexo, ¿es posible determinar si dos puntos pertenecen al mismo valle o no?

Si un televisor inteligente solo es capaz de reproducir un máximo de 4K24FPS o 4K30FPS, ¿puede reproducir 4K60FPS reduciendo FPS o de todos modos?

Dado el interés en todo lo relacionado con IA y ML, es difícil pasar desapercibido en estos días. Dicho esto, sugeriría que algunos de los trabajos prácticos en la aplicación de problemas prácticos de redes neuronales profundas (DNN) específicos pero bastante simples.

En este punto, todo el mundo sabe que los DNN juegan Go, clasifican imágenes, proporcionan subtítulos de texto a las imágenes (aunque no está claro si estos subtítulos se aprenden principalmente como una tabla de búsqueda) y contribuyen a la visión de los autos sin conductor. Muchos de ustedes también han visto bots de chat con tecnología DNN. Estas son tareas que no serían posibles sin DNN, o al menos presentan un avance significativo en la resolución de problemas de IA complicados y aparentemente intratables.

Sin embargo, lo que es menos conocido es que estas mismas técnicas se aplican silenciosamente a problemas de productos conocidos y de larga data, especialmente por las mismas compañías tecnológicas que desarrollan las tecnologías con el factor sorpresa mencionado anteriormente.

Por ejemplo, con mucho menos fanfarria que la división Go de su división DeepMind, Google ha estado transformando su equipo de búsqueda, su producto más importante, para usar más sistemas basados en DNN. La IA está transformando la búsqueda de Google. El resto de la web es el siguiente

Si uno lee este artículo detenidamente, no se trata de una reordenación menor de los resultados de búsqueda, sino un rediseño del algoritmo de Búsqueda de Google desde cero, basado en representaciones continuas de palabras y frases (es decir, vectores de palabras como word2vec ¿Cómo funciona word2vec? ¿Puede alguien recorrer un ejemplo específico?) en lugar de la reescritura de consultas derivadas, sinónimos y otras consultas basadas en heurística que sirvieron tan bien a la Búsqueda de Google desde fines de la década de 1990.

En cuanto a la propia división DeepMind, además del motor Go, el equipo también ha utilizado DNN para lograr una “reducción del 40 por ciento” en los costos de energía del centro de datos, según un artículo de Verge, junto con el partido Go. Google usa DeepMind AI para reducir las facturas de energía del centro de datos

Esto es solo Google, y estos ejemplos se basan solo en lo que desean decir públicamente. Estoy seguro de que compañías como Facebook también están aplicando DNN a varias tareas importantes de ML que se pueden resolver sin DNN y, en algunos casos, obteniendo resultados impresionantes. El director de investigación aplicada de ML de Facebook sugirió lo mismo en un reciente chat de Quora. https://www.quora.com/session/Jo …

Por último, para algo fuera de las especialidades tecnológicas, la aplicación Prisma está transformando los filtros fotográficos artísticos, al permitir que uno agregue un estilo artístico bien conocido a una foto en el móvil en segundos. La imagen producida no es perfectamente nítida, y la tecnología aún no puede ejecutarse en el teléfono, debe aplicarse en un servidor Prisma remoto. Pero seguramente esto pronto se mejorará. Prisma

Es probable que la tecnología de Prisma sea una buena interfaz de usuario y una capa delgada sobre un conocido proyecto de código abierto que aprovecha los DNN para transferir el estilo de una colección de “imágenes de estilo” a una foto. Esto se hace en unos pocos cientos de líneas de código Torch. jcjohnson / estilo neural

Esta misma tecnología también se puede aplicar para la transferencia de estilo a videos cortos con cambios mínimos. También hay un código de código abierto público en GitHub para eso. manuelruder / artistico-videos

Mi conclusión es que muy pronto y tal vez ahora, será fácil aplicar el diseño correcto de DNN a una amplia gama de problemas de ML difíciles y conocidos. Esto lo harán principalmente las grandes empresas tecnológicas, pero también se probará en una gama más amplia de problemas, como la orientación para la publicidad en línea, la detección de fraudes con tarjetas de crédito y similares. Encontrar el DNN correcto para tales problemas de trabajo no requiere un conocimiento previo tremendo, como la matemática detrás del trabajo de DNN. Todo lo que se necesita es una comprensión básica de cómo programar diferentes DNN, y una comprensión algo más profunda del problema subyacente específico que uno pretende resolver. La mejor solución de DNN no siempre funcionará mejor que los métodos de vanguardia anteriores y, a menudo, al principio tendrá deficiencias como velocidad, escala o la necesidad de integrar código de producción en lenguajes de programación desconocidos. Pero a medida que muchas personas prueben estos enfoques de DNN, habrá muchas victorias. Estas victorias están sucediendo ahora, y aunque son menos inspiradoras y, por lo tanto, reciben menos atención de los medios que los sistemas que resuelven Go, que conducen automóviles autónomos y que nos acercan más a la IA general, estos DNN específicos del problema podrían terminar teniendo un Mayor impacto económico.

Nada de esto es para sugerir que la investigación de problemas difíciles de IA y hacia la IA general no es importante. Uno puede considerar Internet alrededor de 1994–2000. El comercio basado en Internet era la promesa que cualquiera podía ver, pero que se mantuvo pequeña como parte del comercio general durante la década de 1990. Mientras tanto, las tiendas físicas como Walmart mejoraron significativamente sus operaciones comerciales a través de la gestión de inventario basada en la tecnología y la predicción de la demanda, que fue posible gracias a la pronta adopción de Internet. Ahora tenemos un amplio comercio en Internet, y eventualmente podríamos tener una IA general fuerte. Pero mientras tanto…

Anant Raj

Aquí hay uno retroactivo: este artículo de 1992 de Ronald Williams presentó todas las técnicas discretas de truco de gradiente de política / reparametrización que se volvieron súper populares después de ser redescubiertas alrededor de 2013: http://www-anw.cs.umass.edu/~bar …

Gareth Edwards

Para (parcialmente) hacer eco de la respuesta de Yann LeCun, hubo muchas buenas ideas hace décadas … pero ciertamente no solo en redes neuronales. No debemos olvidar que un componente clave de la “revolución” de aprendizaje profundo (no estoy convencido, pero bueno) es la disponibilidad de conjuntos de datos masivos. Este tipo de datos simplemente no existía en la década de 1990 o antes.

Si está comenzando en el aprendizaje automático o la visión por computadora, no asuma que tiene que centrarse en el aprendizaje profundo (o al menos no en las variantes de la red neuronal del mismo; en mi opinión, muchos otros métodos son igualmente “profundos”). Hay una mina de oro de investigaciones anteriores que esperan ser explotadas y avanzadas, sin una red neuronal a la vista.

De hecho, en mi empresa resolvemos muchos problemas de visión con precisión actualmente intocable por métodos de aprendizaje profundo.

Mi consejo sobre lo que vale: mantenga una mente abierta y obtenga una base sólida en los amplios campos de visión y aprendizaje antes de entrenar su primera red neuronal.

Kirill Pol

More Interesting

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

¿Debo aprender C ++, Python o Java para construir un sistema de aprendizaje automático de grado de producción?

¿Qué es más robusto para datos ruidosos, un árbol de decisión o Naive Bayes?

¿La normalización de lotes hará la diferencia al entrenar con tamaño de lote = 1?

¿Quiénes son los mejores ingenieros de aprendizaje automático?

¿Debo usar TensorFlow o Caffe2 para comenzar a aprender el aprendizaje automático y el aprendizaje profundo?

¿Cuál es la mejor manera para que un principiante completo aprenda el aprendizaje automático?

¿Cuál es el mejor marco de minería de datos?

¿Dónde puedo encontrar el conjunto de datos para un sistema de recomendación?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?