Hay una gran cantidad de cosas sucediendo, pero trataré de resaltar algunos puntos destacados y señalar algunos temas generales que son emocionantes.
Primero, en percepción podemos construir sistemas que entiendan fotos, videos, voz, sonido, etc. Por ejemplo, aquí hay una demostración que armamos de un sistema que puede responder preguntas sobre una escena de fotos, y aquí hay algunas imágenes de muestra de nuestro envío reciente al desafío de MSCOCO para segmentar y etiquetar objetos
- ¿Cómo debo pasar el mes de mis vacaciones de verano después de mi pasantía de investigación?
- ¿Cuál es más eficiente de usar para la investigación: Matlab o Python? ¿Hay mejores opciones?
- Estoy en la clase 12. Quiero hacer algunos trámites o investigar en informática. Quizás pequeño. Sé python y C ++. ¿Qué tengo que hacer?
- ¿Cómo compararías Google Research con Microsoft Research?
- ¿Qué han estado haciendo los millones de informáticos e ingenieros durante el período de 1996 a 2015? ¿Qué han logrado?
Este tipo de cosas: hacer tareas de percepción humana como etiquetar o responder preguntas en entradas de alta dimensión como píxeles, cuadros de video, muestras de audio, etc., se ha abierto en los últimos años, particularmente usando técnicas como Redes Neuronales Convolucionales, algo que mi El colega Yann LeCun inventó hace mucho tiempo y se ha visto acelerado por la capacidad de procesar grandes cantidades de datos en GPU (como nuestros equipos). Esto es emocionante porque se mueve muy rápido y abre todo un universo de productos que entienden el contenido y la intención en Facebook que nunca antes podría haber existido.
Hemos comenzado a cambiar estas redes y hacer que imaginen escenas o imágenes de una descripción en lugar de lo contrario. Aquí hay un trabajo de FAIRy Soumith Chintala, en colaboración con indico Research en Boston, que puede generar escenas imaginarias de dormitorios (a continuación)
y se ha adaptado para generar rostros, portadas de álbumes, flores, caracteres chinos o incluso manga.
Lo siguiente que destacaría es que le estamos dando a nuestras redes habilidades que parecen memoria humana y razonamiento . Las piezas automatizadas del proyecto Facebook M están impulsadas por Memory Networks, que fue publicada por FAIRy Jason Weston. Para procesar una secuencia de diálogo más larga, tenemos que entender lo que significa un texto, pero también necesitamos almacenar y acceder a lo que sucede para poder referirnos a él en el diálogo futuro. Estas redes de memoria son parte de una clase de técnicas para construir redes que pueden aprender cómo construir y hacer referencia a hechos a lo largo del tiempo. Donde nuestras redes más tradicionales y sin estado parecen circuitos simples que aprenden a cablearse con el tiempo, estas redes comienzan a parecerse a procesadores automáticos completos. Aquí hay una demostración de una red de este tipo que lee una historia y luego responde preguntas al respecto.
Finalmente, estamos aprendiendo mucho de Facebook. Tener una red de 1,55 mil millones de personas conectadas entre sí y descubriendo el mundo que nos rodea nos brinda una gran oportunidad para aprender sobre la humanidad. Como ingeniero, construir sistemas que se escalen y aprendan de todo el gráfico social de Facebook es tremendamente emocionante y algo que puede suceder en un solo lugar del mundo: aquí. Tenemos un largo camino por recorrer, pero esperamos aprender mucho sobre la humanidad a través del trabajo que hacemos prediciendo y entendiendo el gráfico social de Facebook.
Esto de ninguna manera es exhaustivo de todas las investigaciones interesantes que estamos haciendo, pero estos son algunos aspectos destacados de cosas que personalmente me encantan.