Yoshua Bengio: ¿cuáles son las preguntas abiertas más importantes en el aprendizaje profundo? La tecnología cambia la vida futura

Esta respuesta es generada por AI Brain con el propósito de {Estudio AI y {Estudio Deep Learning:

Aquí hay una pequeña selección de preguntas que el Dr. Bengio encuentra interesantes:

Aprendizaje sin supervisión:
¿Qué es el algoritmo de descenso de gradiente?
¿Cuál es el orden jerárquico del universo?
¿Cuáles son los mejores algoritmos de aprendizaje sin supervisión para la corrección ortográfica?
¿Necesita saber la teoría de la medida para hacer investigación de aprendizaje automático?
Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.

El trabajo anterior sobre RBM y codificadores automáticos sin duda merece una mayor investigación, junto con la construcción de otros nuevos procedimientos de aprendizaje no supervisados.

Por un lado, los procedimientos no supervisados (y la capacitación previa) siguen siendo un ingrediente clave para lidiar con los casos de aprendizaje semi-supervisados y de transferencia (y adaptación de dominio, y datos no estacionarios), cuando el número de ejemplos etiquetados de las nuevas clases ( o de la distribución modificada) es pequeño. Así es como ganamos los dos concursos de aprendizaje de transferencia de 2011 (celebrados en ICML y NIPS).

Además, mirando más hacia el futuro, el aprendizaje no supervisado es muy atractivo por otras razones:

aprovechar las enormes cantidades de datos sin etiquetar

aprenda sobre las dependencias estadísticas entre todas las variables observadas para que pueda responder NUEVAS preguntas (no vistas durante el entrenamiento) sobre cualquier subconjunto de variables dado cualquier otro subconjunto

Es un regularizador muy potente y puede ayudar al alumno a desenredar los factores subyacentes de variación, lo que facilita mucho la resolución de nuevas tareas a partir de muy pocos ejemplos.

se puede usar en el caso supervisado cuando la variable de salida (que se va a predecir) es un objeto compuesto de muy alta dimensión (como una imagen o una oración), es decir, una llamada salida estructurada

Maxout y otras unidades de agrupación similares hacen algo que puede estar relacionado con la competencia local (a menudo a través de interneuronas inhibitorias) entre las neuronas vecinas en la misma área de la corteza.

Optimización de hiperparámetros

La idea de optimizar hiperparámetros es antigua, pero no había tenido tanto éxito visible hasta hace poco. Uno de los principales contribuyentes tempranos a esta línea de trabajo (antes de que se aplicara a la optimización de hiperparámetros de aprendizaje automático) es Frank Hutter (junto con sus colaboradores), quien dedicó su tesis doctoral (2009) a algoritmos para optimizar los mandos que generalmente se configuran. a mano en general en sistemas de software. Mi antiguo estudiante de doctorado James Bergstra y yo trabajamos en la optimización de hiperparámetros hace un par de años y primero propusimos una alternativa muy simple, llamada “muestreo aleatorio” a los métodos estándar (llamada “búsqueda de cuadrícula”), que funciona muy bien y es Muy fácil de implementar.

http://jmlr.org/papers/volume13/…

Luego propusimos utilizar para el aprendizaje profundo los tipos de algoritmos que Hutter había desarrollado para otros contextos, llamados optimización secuencial y esto se publicó en NIPS’2011, en colaboración con otro estudiante de doctorado que dedicó su tesis a este trabajo, Remi Bardenet y su supervisor Balazs Kegl (anteriormente profesor en mi laboratorio, ahora en Francia).

http://papers.nips.cc/paper/4443…

Este trabajo ha sido seguido con mucho éxito por investigadores de la U. Toronto, incluidos Jasper Snoek (entonces estudiante de Geoff Hinton), Hugo Larochelle (que hizo su doctorado conmigo) y Ryan Adams (ahora profesor de Harvard) con un artículo. en NIPS’2012, donde demostraron que podían impulsar el estado del arte en la competencia ImageNet, ayudando a mejorar la misma red neuronal que hizo que Krizhevsky, Sutskever y Hinton fueran famosos por romper récords en reconocimiento de objetos.

http://www.dmi.usherb.ca/~larocheh/publications/gpopt_nips.pdf

Snoek et al publicaron un software que desde entonces ha sido utilizado por muchos investigadores, llamado ‘hierbabuena’, y descubrí recientemente que Netflix lo ha estado utilizando en su nuevo trabajo con el objetivo de aprovechar el aprendizaje profundo para las recomendaciones de películas:

http://techblog.netflix.com/2014…

“Comprensión del lenguaje natural”

Creo que el desafío realmente interesante en PNL, que será la clave para la “comprensión del lenguaje natural” real, es el diseño de algoritmos de aprendizaje que puedan aprender a representar el significado. Por ejemplo, estoy trabajando en formas de modelar secuencias de palabras (modelado de lenguaje) o traducir una oración en un idioma al correspondiente en otro idioma. En ambos casos, estamos tratando de aprender una representación del significado de una frase u oración (no solo de una sola palabra). En el caso de la traducción, puede pensarlo como un codificador automático: el codificador (que está especializado en francés) puede mapear una oración francesa en su representación de significado (representada de manera universal), mientras que un decodificador (que está especializado al inglés) puede asignar esto a una distribución de probabilidad sobre las oraciones en inglés que tienen el mismo significado (es decir, puede probar una traducción plausible). Obviamente, con el mismo tipo de herramienta, puede parafrasear, y con un poco de trabajo adicional, puede responder preguntas y otras tareas estándar de PNL. Todavía no estamos allí, y los principales desafíos que veo tienen que ver con la optimización numérica (es difícil no adaptar las redes neuronales, cuando están capacitados en grandes cantidades de datos). También hay más desafíos computacionales: necesitamos poder entrenar modelos mucho más grandes (digamos 10000x más grandes), y no podemos permitirnos esperar 10000x más tiempo para el entrenamiento. Y la paralelización no es simple, pero debería ayudar. Por supuesto, todo esto no será suficiente para obtener una buena comprensión del lenguaje natural. Para esto, básicamente permitiría pasar alguna prueba de Turing, y requeriría que la computadora entienda muchas cosas sobre cómo funciona nuestro mundo. Para esto necesitaremos entrenar tales modelos con más que solo texto. La representación de significado para secuencias de palabras se puede combinar con la representación de significado para imágenes o video (u otras modalidades, pero la imagen y el texto parecen ser los más importantes para los humanos). Una vez más, puede pensar que el problema se traduce de una modalidad a otra, o preguntarse si dos representaciones son compatibles (una expresa un subconjunto de lo que la otra expresa). En una forma más simple, así es como funciona la búsqueda de imágenes de Google. Y la recuperación de información tradicional también se ajusta a la misma estructura (reemplace “imagen” por “documento”).

Fuente: AMA: Yoshua Bengio • / r / MachineLearning

Generado por Brain