Yoshua Bengio: ¿cuáles son las preguntas abiertas más importantes en el aprendizaje profundo?

Esta respuesta es generada por AI Brain con el propósito de {Estudio AI y {Estudio Deep Learning:

Aquí hay una pequeña selección de preguntas que el Dr. Bengio encuentra interesantes:

Aprendizaje sin supervisión:

El trabajo anterior sobre RBM y codificadores automáticos sin duda merece una mayor investigación, junto con la construcción de otros nuevos procedimientos de aprendizaje no supervisados.

Por un lado, los procedimientos no supervisados ​​(y la capacitación previa) siguen siendo un ingrediente clave para lidiar con los casos de aprendizaje semi-supervisados ​​y de transferencia (y adaptación de dominio, y datos no estacionarios), cuando el número de ejemplos etiquetados de las nuevas clases ( o de la distribución modificada) es pequeño. Así es como ganamos los dos concursos de aprendizaje de transferencia de 2011 (celebrados en ICML y NIPS).

Además, mirando más hacia el futuro, el aprendizaje no supervisado es muy atractivo por otras razones:

  • aprovechar las enormes cantidades de datos sin etiquetar
  • aprenda sobre las dependencias estadísticas entre todas las variables observadas para que pueda responder NUEVAS preguntas (no vistas durante el entrenamiento) sobre cualquier subconjunto de variables dado cualquier otro subconjunto
  • Es un regularizador muy potente y puede ayudar al alumno a desenredar los factores subyacentes de variación, lo que facilita mucho la resolución de nuevas tareas a partir de muy pocos ejemplos.
  • se puede usar en el caso supervisado cuando la variable de salida (que se va a predecir) es un objeto compuesto de muy alta dimensión (como una imagen o una oración), es decir, una llamada salida estructurada

Maxout y otras unidades de agrupación similares hacen algo que puede estar relacionado con la competencia local (a menudo a través de interneuronas inhibitorias) entre las neuronas vecinas en la misma área de la corteza.

Optimización de hiperparámetros

La idea de optimizar hiperparámetros es antigua, pero no había tenido tanto éxito visible hasta hace poco. Uno de los principales contribuyentes tempranos a esta línea de trabajo (antes de que se aplicara a la optimización de hiperparámetros de aprendizaje automático) es Frank Hutter (junto con sus colaboradores), quien dedicó su tesis doctoral (2009) a algoritmos para optimizar los mandos que generalmente se configuran. a mano en general en sistemas de software. Mi antiguo estudiante de doctorado James Bergstra y yo trabajamos en la optimización de hiperparámetros hace un par de años y primero propusimos una alternativa muy simple, llamada “muestreo aleatorio” a los métodos estándar (llamada “búsqueda de cuadrícula”), que funciona muy bien y es Muy fácil de implementar.

http://jmlr.org/papers/volume13/…

Luego propusimos utilizar para el aprendizaje profundo los tipos de algoritmos que Hutter había desarrollado para otros contextos, llamados optimización secuencial y esto se publicó en NIPS’2011, en colaboración con otro estudiante de doctorado que dedicó su tesis a este trabajo, Remi Bardenet y su supervisor Balazs Kegl (anteriormente profesor en mi laboratorio, ahora en Francia).

http://papers.nips.cc/paper/4443…

Este trabajo ha sido seguido con mucho éxito por investigadores de la U. Toronto, incluidos Jasper Snoek (entonces estudiante de Geoff Hinton), Hugo Larochelle (que hizo su doctorado conmigo) y Ryan Adams (ahora profesor de Harvard) con un artículo. en NIPS’2012, donde demostraron que podían impulsar el estado del arte en la competencia ImageNet, ayudando a mejorar la misma red neuronal que hizo que Krizhevsky, Sutskever y Hinton fueran famosos por romper récords en reconocimiento de objetos.

http://www.dmi.usherb.ca/~larocheh/publications/gpopt_nips.pdf

Snoek et al publicaron un software que desde entonces ha sido utilizado por muchos investigadores, llamado ‘hierbabuena’, y descubrí recientemente que Netflix lo ha estado utilizando en su nuevo trabajo con el objetivo de aprovechar el aprendizaje profundo para las recomendaciones de películas:

http://techblog.netflix.com/2014…

“Comprensión del lenguaje natural”

Creo que el desafío realmente interesante en PNL, que será la clave para la “comprensión del lenguaje natural” real, es el diseño de algoritmos de aprendizaje que puedan aprender a representar el significado. Por ejemplo, estoy trabajando en formas de modelar secuencias de palabras (modelado de lenguaje) o traducir una oración en un idioma al correspondiente en otro idioma. En ambos casos, estamos tratando de aprender una representación del significado de una frase u oración (no solo de una sola palabra). En el caso de la traducción, puede pensarlo como un codificador automático: el codificador (que está especializado en francés) puede mapear una oración francesa en su representación de significado (representada de manera universal), mientras que un decodificador (que está especializado al inglés) puede asignar esto a una distribución de probabilidad sobre las oraciones en inglés que tienen el mismo significado (es decir, puede probar una traducción plausible). Obviamente, con el mismo tipo de herramienta, puede parafrasear, y con un poco de trabajo adicional, puede responder preguntas y otras tareas estándar de PNL. Todavía no estamos allí, y los principales desafíos que veo tienen que ver con la optimización numérica (es difícil no adaptar las redes neuronales, cuando están capacitados en grandes cantidades de datos). También hay más desafíos computacionales: necesitamos poder entrenar modelos mucho más grandes (digamos 10000x más grandes), y no podemos permitirnos esperar 10000x más tiempo para el entrenamiento. Y la paralelización no es simple, pero debería ayudar. Por supuesto, todo esto no será suficiente para obtener una buena comprensión del lenguaje natural. Para esto, básicamente permitiría pasar alguna prueba de Turing, y requeriría que la computadora entienda muchas cosas sobre cómo funciona nuestro mundo. Para esto necesitaremos entrenar tales modelos con más que solo texto. La representación de significado para secuencias de palabras se puede combinar con la representación de significado para imágenes o video (u otras modalidades, pero la imagen y el texto parecen ser los más importantes para los humanos). Una vez más, puede pensar que el problema se traduce de una modalidad a otra, o preguntarse si dos representaciones son compatibles (una expresa un subconjunto de lo que la otra expresa). En una forma más simple, así es como funciona la búsqueda de imágenes de Google. Y la recuperación de información tradicional también se ajusta a la misma estructura (reemplace “imagen” por “documento”).

Fuente: AMA: Yoshua Bengio • / r / MachineLearning

Generado por Brain

More Interesting

¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?

Tengo problemas para mejorar el rendimiento de mi red neuronal a medida que aumento el número de unidades, ¿cuál podría ser el problema?

¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?

¿Cuáles son algunos proyectos en Big Data y machine learning?

¿Qué es el modelado de mezclas gaussianas?

¿Cuáles son las formas de ingresar a Stanford para obtener una maestría en informática o una maestría en aprendizaje automático e inteligencia artificial?

¿Es posible generar programas informáticos solo a partir de especificaciones?

¿Existe un método común para detectar la convergencia de la muestra de Gibbs y el algoritmo de maximización de expectativas?

¿Hay alguna forma de implementar TSVM usando bibliotecas SVM?

¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

¿Hay alguna desventaja de usar GPU en el aprendizaje profundo?

Como estudiante que realiza un curso de algoritmos de aprendizaje automático, ¿en qué debe centrarse el objetivo principal para maximizar el conocimiento aplicable al final del semestre?

¿Qué significa decir que dos clasificadores son independientes?

¿Cuáles son las tendencias e investigaciones actuales relacionadas con la red neuronal profunda en los sistemas inteligentes de transporte?

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?