¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

Es difícil de creer que solo ha pasado un año … Han pasado tantas cosas en el mundo de la IA y el aprendizaje automático que es difícil encajar en una sola respuesta. Aquí está mi intento. No esperes demasiados detalles, pero sí muchos enlaces para seguirlos.

Si tengo que elegir mi punto culminante principal del año, eso tiene que ir a AlphaGo Zero (papel). Este nuevo enfoque no solo mejora en algunas de las direcciones más prometedoras (por ejemplo, el aprendizaje de refuerzo profundo), sino que también representa un cambio de paradigma en el que dichos modelos pueden aprender sin datos. También hemos aprendido recientemente que Alpha Go Zero se generaliza a otros juegos como el ajedrez. Puede leer más sobre mi interpretación de este avance en mi respuesta de Quora.

Un metaestudio reciente encontró errores sistemáticos al informar sobre métricas en trabajos de investigación relacionados con las GAN. A pesar de esto, es innegable que las GAN han seguido presentando resultados impresionantes, especialmente cuando se trata de sus aplicaciones en el espacio de la imagen (por ejemplo, GAN progresivas, GANS condicionales en pix2pix o CycleGans). La PNL es otra área que ha visto avances impresionantes debido al Aprendizaje Profundo este año, es la PNL y, en particular, la traducción. Salesforce presentó un interesante enfoque no autorregresivo que puede abordar la traducción de oraciones completas. Quizás aún más innovadores son los enfoques no supervisados presentados por Facebook y UPV. Deep Learning también está teniendo un gran impacto en un área que golpea cerca de casa: los sistemas de recomendación. Sin embargo, un artículo reciente también cuestionó algunos avances recientes al mostrar cuánto métodos más simples como kNN eran competitivos con Deep Learning. Tampoco es una sorpresa que, como en el caso de la investigación de GAN, el increíble ritmo rápido de la investigación de IA también pueda conducir a una cierta pérdida de rigor científico. Permítanme señalar también que, si bien es cierto que muchos o la mayoría de los avances de IA provienen del campo de Aprendizaje profundo, existe una innovación continua en muchas otras direcciones en IA y ML.

Algo relacionado con algunos de los problemas mencionados anteriormente, muchos critican esta falta de rigor e inversión para establecer los fundamentos teóricos de los métodos. Justo esta semana, Ali Rahimi describió la IA moderna como “alquimia” en su charla NIPS 2017 Test of Time. Yann Lecun respondió rápidamente a esto en un debate que es poco probable que se resuelva pronto. Sin embargo, creo que podría estar de acuerdo en que este año ha visto muchos esfuerzos interesantes para tratar de avanzar en los fundamentos de Deep Learning. Por ejemplo, los investigadores están tratando de entender cómo se generalizan las redes neuronales profundas. La teoría del cuello de botella de información de Tishby también se debatió extensamente este año como una explicación plausible de algunas de las propiedades de Deep Learning. Hinton, que se celebra por su carrera este año, también sigue cuestionando cuestiones fundamentales como el uso de la propagación hacia atrás. Reconocidos investigadores como Pedro Domingos pronto recogieron el guante y desarrollaron métodos de Aprendizaje profundo que utilizaron diferentes técnicas de optimización. Un cambio fundamental final y muy reciente propuesto por Hinton es el uso de cápsulas (ver documento original) como una alternativa a las Redes Convolucionales.

Si observamos el lado de la ingeniería de la IA, el año comenzó con Pytorch tomando fuerza y convirtiéndose en un verdadero desafío para Tensorflow, especialmente en investigación. Tensorflow reaccionó rápidamente liberando redes dinámicas en Tensorflow Fold. Sin embargo, la “Guerra AI” entre grandes jugadores tiene muchas otras batallas, y la más acalorada ocurre alrededor de la Nube. Todos los proveedores principales realmente han intensificado y aumentan su soporte de IA en la nube. Amazon ha presentado grandes innovaciones en su AWS, como su reciente presentación de Sagemaker para construir e implementar modelos ML, o su biblioteca Gluon, lanzada junto con Microsoft. También vale la pena mencionar que los jugadores más pequeños también están participando. Nvidia ha presentado recientemente su nube de GPU, que promete ser otra alternativa interesante para entrenar modelos de Deep Learning. A pesar de todas estas batallas, es bueno ver que la industria puede unirse cuando sea necesario. La nueva estandarización ONNX de representaciones de redes neuronales es un paso importante y necesario hacia la interoperabilidad.

2017 también ha visto la continuación (¿escalada?) De problemas sociales en torno a la IA. Elon Musk continúa alimentando la idea de que nos estamos acercando cada vez más a las IA asesinas, para consternación de muchas personas. También se ha debatido mucho sobre cómo la IA afectará los trabajos en los próximos años. Finalmente, hemos visto un enfoque mucho más centrado en la transparencia y el sesgo de los algoritmos de IA.

Finalmente, durante los últimos meses, he estado trabajando en IA para medicina y atención médica. También me complace ver que la tasa de innovación en dominios menos “tradicionales” como la atención médica está aumentando rápidamente. AI y ML se han aplicado a la medicina con años, comenzando con sistemas expertos y bayesianos en los años 60 y 70. Sin embargo, a menudo me encuentro citando documentos que tienen solo unos pocos meses. Algunas de las innovaciones recientes presentadas este año incluyen el uso de Deep RL, GAN o Autoencoders para representar los fenotipos de los pacientes. Muchos de los avances recientes en IA también se han centrado en la medicina de precisión (diagnóstico y tratamiento médico altamente personalizado) y la genómica. Por ejemplo, el último artículo de David Blei aborda la causalidad en los modelos de redes neuronales mediante el uso de la inferencia bayesiana para predecir si un individuo tiene una predisposición genética a una enfermedad. Todos los grandes jugadores están invirtiendo en IA en salud. Google tiene varios equipos, incluido Deepmind Healthcare, que han presentado varios avances muy interesantes en IA para la medicina, especialmente en la automatización de imágenes médicas o el trabajo que el grupo de Fei Fei está haciendo entre Google y Stanford. Pero, también Apple está buscando aplicaciones de atención médica para su Apple Watch, y Amazon está invirtiendo “secretamente” en atención médica. Está claro que el espacio está maduro para la innovación.

Actualización 28/12:

¡Gracias por todos los comentarios y votos!

Son parte de la razón por la cual, solo un par de semanas después de que escribí la respuesta, y antes de finales de 2017, me siento obligado a actualizar la respuesta y agregar un par de desarrollos más recientes que vale la pena agregar:

Primero, el equipo de inteligencia artificial de Uber presentó un trabajo muy interesante sobre el uso de algoritmos genéticos (GA) en el contexto del aprendizaje de refuerzo profundo. En una colección de 5 documentos, el equipo muestra cómo los GA son una alternativa competitiva al SGD para entrenar modelos profundos en situaciones en las que no se esperaba que tuvieran un buen desempeño. Es extremadamente interesante ver a GA regresar y estoy emocionado de ver a dónde nos puede llevar en los próximos meses.

Finalmente, recientemente leí un artículo de Ciencia sobre cómo Libratus había vencido a humanos expertos en el Poker sin límites (esta es una versión de un artículo anterior de IJCAI). Esto me recordó que no había mencionado todos los avances emocionantes en juegos de información imperfecta que han sucedido en los últimos 12 meses. Si bien AlphaGo Zero es realmente un desarrollo muy emocionante, la verdad es que la mayoría de los problemas en realidad pueden asimilarse más fácilmente a juegos de información imperfectos como el Poker que a juegos de información perfectos como Go o Chess. Es por eso que el trabajo en esta área es realmente emocionante e importante para impulsar el campo. Además de la publicación reciente mencionada anteriormente, probablemente agregaría los dos siguientes: Aprendizaje de refuerzo profundo del juego propio en juegos de información imperfecta, y DeepStack: Inteligencia artificial de nivel experto en Heads-Up No-Limit Poker.

Aprendizaje automáticoAvanceTecnologíatecnológicoTendencias tecnológicas

¿Hay alguna diferencia entre los codificadores automáticos y el codificador-decodificador en el aprendizaje profundo?

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?

Cómo construir una aplicación de predicción de flujo de efectivo personal con extractos bancarios utilizando el aprendizaje automático

En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?

Cómo entrenar algoritmos relacionados con IA sin una GPU decente

2016–2017 bien podría pasar a la historia como el año del “bombo publicitario de Machine Learning”. Ahora todos parecen estar haciendo aprendizaje automático, y si no lo están, están pensando en comprar una startup para afirmar que sí.

Ahora, para ser justos, hay razones para gran parte de ese “bombo”. ¿Puedes creer que solo ha pasado un año desde que Google anunció que estaban abiertos a Tensor Flow? TF ya es un proyecto muy activo que se está utilizando para cualquier cosa, desde el descubrimiento de drogas hasta la generación de música. Sin embargo, Google no ha sido la única compañía abierta que abastece su software ML, muchos siguieron el ejemplo. CNTK de fuente abierta de Microsoft, Baidu anunció el lanzamiento de PaddlePaddle, y Amazon anunció recientemente que respaldarán a MXNet en su nueva plataforma AWS ML. Facebook, por otro lado, básicamente apoya el desarrollo de no uno, sino dos marcos de Deep Learning: Torch y Caffe. Por otro lado, Google también está apoyando al Keras altamente exitoso, por lo que las cosas son al menos incluso entre Facebook y Google en ese frente.

Además de la “exageración” y el gran apoyo de las empresas a los proyectos de código abierto de aprendizaje automático, 2016 también ha visto una gran cantidad de aplicaciones de aprendizaje automático que eran casi inimaginables hace unos meses. Me impresionó especialmente la calidad de la generación de audio de Wavenet. Habiendo trabajado en problemas similares en el pasado, puedo apreciar esos resultados. También destacaría algunos de los resultados recientes en lectura de labios, una gran aplicación de reconocimiento de video que probablemente sea muy útil (y tal vez aterradora) en el futuro cercano. También debo mencionar los impresionantes avances de Google en la traducción automática. Es sorprendente ver cuánto ha mejorado esta área en un año.

De hecho, la traducción automática no es el único avance interesante que hemos visto en el aprendizaje automático para las tecnologías del lenguaje el año pasado. Creo que es muy interesante ver algunos de los enfoques recientes para combinar redes secuenciales profundas con información secundaria para producir modelos de lenguaje más ricos. En “Un modelo de lenguaje de conocimiento neuronal”, el equipo de Bengio combina gráficos de conocimiento con RNN, y en “Modelos contextuales LSTM para tareas PNL a gran escala”, la gente de Deepmind incorpora temas en el modelo LSTM. También hemos visto mucho trabajo interesante en el modelado de atención y memoria para modelos de lenguaje. Como ejemplo, recomendaría “Ask Me Anything: Dynamic Memory Networks for NLP”, presentado en el ICML de este año.

Además, al menos debería mencionar un par de cosas de NIPS 2016 en Barcelona. Desafortunadamente, tuve que perder la conferencia la única vez que sucedía en mi ciudad natal. Sin embargo, seguí desde la distancia. Y de lo que reuní, los dos temas más candentes fueron probablemente Redes Adversarias Generativas (incluido el tutorial muy popular de Ian Goodfellow) y la combinación de modelos probabilísticos con Deep Learning.

Permítanme mencionar también algunos de los avances en mi área principal de especialización: Sistemas de recomendación. Por supuesto, el aprendizaje profundo también ha impactado esta área. Si bien todavía no recomendaría DL como el enfoque predeterminado para los sistemas de recomendación, es interesante ver cómo ya se está utilizando en la práctica, y en gran escala, por productos como Youtube. Dicho esto, ha habido investigaciones interesantes en el área que no están relacionadas con el aprendizaje profundo. El mejor premio en papel en el ACM Recsys de este año fue para “Modelos locales de ítem-ítem para la recomendación Top-N”, una extensión interesante de los métodos lineales dispersos (es decir, SLIM) usando un paso de agrupación inicial sin supervisión. Además, “Máquinas de factorización de campo para la predicción de CTR”, que describe el enfoque ganador para el Desafío de Kaggle de predicción CTR de Criteo es un buen recordatorio de que las Máquinas de factorización siguen siendo una buena herramienta para tener en su kit de herramientas de ML.

Probablemente podría continuar con varios otros párrafos simplemente enumerando avances impactantes en el aprendizaje automático en los últimos doce meses. Tenga en cuenta que ni siquiera he enumerado ninguno de los avances relacionados con el reconocimiento de imágenes o el aprendizaje de refuerzo profundo, o aplicaciones obvias como automóviles sin conductor, bots de chat o juegos, que todos vieron grandes avances en 2016. Sin mencionar todos la controversia sobre cómo el aprendizaje automático está teniendo o podría tener efectos negativos en la sociedad y el aumento de las discusiones sobre el sesgo algorítmico y la equidad.

Refuerzo positivo

La histórica victoria de AlphaGo contra uno de los mejores jugadores de Go de todos los tiempos, Lee Sedol, fue un hito para el campo de la IA, y especialmente para la técnica conocida como aprendizaje de refuerzo profundo.

El aprendizaje de refuerzo se inspira en las formas en que los animales aprenden cómo ciertos comportamientos tienden a dar como resultado un resultado positivo o negativo. Con este enfoque, una computadora puede, por ejemplo, descubrir cómo navegar por un laberinto por prueba y error y luego asociar el resultado positivo, salir del laberinto, con las acciones que lo llevaron a él. Esto permite que una máquina aprenda sin instrucciones o incluso ejemplos explícitos. La idea ha existido durante décadas, pero combinarla con redes neuronales grandes (o profundas) proporciona la potencia necesaria para que funcione en problemas realmente complejos (como el juego Go). A través de la experimentación implacable, así como el análisis de juegos anteriores, AlphaGo descubrió por sí mismo cómo jugar el juego a un nivel experto.

La esperanza es que el aprendizaje por refuerzo ahora resultará útil en muchas situaciones del mundo real. Y el lanzamiento reciente de varios entornos simulados debería estimular el progreso en los algoritmos necesarios al aumentar el rango de habilidades que las computadoras pueden adquirir de esta manera.

En 2017, es probable que veamos intentos de aplicar el aprendizaje por refuerzo a problemas como la conducción automatizada y la robótica industrial. Google ya se ha jactado de utilizar el aprendizaje de refuerzo profundo para hacer que sus centros de datos sean más eficientes. Pero el enfoque sigue siendo experimental, y aún requiere una simulación que requiere mucho tiempo, por lo que será interesante ver qué tan efectivamente se puede implementar.

Redes neuronales en duelo

En la reunión académica de inteligencia artificial celebrada recientemente en Barcelona, la conferencia de Sistemas de Procesamiento de Información Neural, gran parte del rumor se refería a una nueva técnica de aprendizaje automático conocida como redes generativas de confrontación.

Inventado por Ian Goodfellow, ahora científico investigador de OpenAI, las redes de confrontación generativa, o GAN, son sistemas que consisten en una red que genera nuevos datos después de aprender de un conjunto de entrenamiento, y otra que trata de discriminar entre datos reales y falsos. Al trabajar juntos, estas redes pueden producir datos sintéticos muy realistas. El enfoque podría usarse para generar escenarios de videojuegos, desdibujar secuencias de video pixeladas o aplicar cambios estilísticos a los diseños generados por computadora.

Yoshua Bengio, uno de los principales expertos mundiales en aprendizaje automático (y asesor de doctorado de Goodfellow en la Universidad de Montreal), dijo en NIPS que el enfoque es especialmente emocionante porque ofrece una forma poderosa para que las computadoras aprendan de datos no etiquetados, algo que muchos creen puede ser la clave para hacer que las computadoras sean mucho más inteligentes en los próximos años.

Auge de la IA de China

Recomendado para ti

Primeros embriones humanos editados en EE. UU.
El Model 3 de Tesla está muy lejos del gran objetivo de Elon Musk
Los mensajes de las redes sociales se están volviendo más complejos y nadie sabe por qué
Una tienda de aplicaciones de ADN está aquí, pero proceda con precaución
El mundo tecnológico está convencido 2021 será el mejor año de la historia
Cómo el video “Gangnam Style” se convirtió en una pandemia global
Esta imagen es la razón por la cual los autos sin conductor vienen cargados con muchos tipos de sensores
La ciencia emergente de la psiquiatría computacional
Bitcoin ha evitado desgarrarse (por ahora)
AI Fight Club podría ayudarnos a salvarnos de un futuro de ciberataques súper inteligentes

Este también puede ser el año en que China comience a verse como un jugador importante en el campo de la IA. La industria tecnológica del país está dejando de copiar compañías occidentales, y ha identificado la IA y el aprendizaje automático como las próximas grandes áreas de innovación.

La compañía de búsqueda líder de China, Baidu, ha tenido un laboratorio centrado en la inteligencia artificial durante algún tiempo, y está cosechando recompensas en términos de mejoras en tecnologías como el reconocimiento de voz y el procesamiento del lenguaje natural, así como un negocio de publicidad mejor optimizado. Otros jugadores ahora están luchando para ponerse al día. Tencent, que ofrece la exitosa aplicación móvil de mensajería y redes WeChat, abrió un laboratorio de inteligencia artificial el año pasado, y la compañía estaba ocupada reclutando talento en NIPS. Didi, el gigante de viajes compartidos que compró las operaciones chinas de Uber a principios de este año, también está construyendo un laboratorio y, según los informes, trabaja en sus propios autos sin conductor.

Los inversores chinos ahora están invirtiendo dinero en nuevas empresas centradas en la inteligencia artificial, y el gobierno chino ha manifestado su deseo de ver florecer la industria de inteligencia artificial del país, comprometiéndose a invertir alrededor de $ 15 mil millones para 2018.

Aprendizaje de idiomas

Pregunte a los investigadores de IA cuál es su próximo gran objetivo, y es probable que mencionen el lenguaje. La esperanza es que las técnicas que han producido un progreso espectacular en el reconocimiento de voz e imagen, entre otras áreas, también puedan ayudar a las computadoras a analizar y generar el lenguaje de manera más efectiva.

Este es un objetivo de larga data en inteligencia artificial, y la posibilidad de que las computadoras se comuniquen e interactúen con nosotros usando el lenguaje es fascinante. Una mejor comprensión del lenguaje haría que las máquinas sean mucho más útiles. Pero el desafío es formidable, dada la complejidad, sutileza y poder del lenguaje.

No espere entablar una conversación profunda y significativa con su teléfono inteligente por un tiempo. Pero se están haciendo algunos avances impresionantes, y puede esperar más avances en esta área en 2017.

Reacción a la exageración

Además de los avances genuinos y las nuevas y emocionantes aplicaciones, en 2016, la exageración en torno a la inteligencia artificial alcanzó nuevas alturas. Si bien muchos tienen fe en el valor subyacente de las tecnologías que se desarrollan hoy en día, es difícil escapar de la sensación de que la publicidad que rodea a la IA se está yendo un poco de las manos.

Evidentemente, algunos investigadores de IA están irritados. Se organizó una fiesta de lanzamiento durante NIPS para una startup de IA falsa llamada Rocket AI, para resaltar la creciente manía y las tonterías en torno a la investigación real de IA. El engaño no fue muy convincente, pero fue una forma divertida de llamar la atención sobre un problema genuino.

Un problema real es que la exageración inevitablemente conduce a una sensación de decepción cuando no ocurren grandes avances, lo que hace que las startups sobrevaloradas fallen y la inversión se agote. Tal vez 2017 presente algún tipo de reacción contra la máquina de publicidad de IA, y tal vez eso no sería tan malo.

Zero

Como alguien que se encuentra en una etapa muy temprana de una carrera de investigación en este espacio, creo que puedo agregar algo a las respuestas ya existentes de los expertos.

Dado el hecho de que Machine Learning (ML) es en gran medida Deep Learning (DL) en estos días, estoy obligado a dar punteros solo en el área de DL. También con mi experiencia, mi respuesta es ligeramente hacia la imagen y la visión por computadora.

Modelos Generativos: Este ha sido un espacio de vigilancia desde 2015 en DL, especialmente con el éxito de las Redes Adversarias Generativas (GAN) con la generación de imágenes. Un gran obstáculo para las GAN ha sido la dificultad para entrenar a estos modelos de GAN. Este año se vio un artículo que mejora la capacitación en GAN con el inventor del propio GAN (Ian Goodfellow) involucrado en el trabajo: [1606.03498] Técnicas mejoradas para capacitar a las GAN
Implicaciones de las GAN: la idea de las GAN está lista para impactar el área de adaptación de dominio en ML. Imagine modelos de entrenamiento con datos sintéticos renderizados de objetos como automóviles y haciendo que el modelo funcione con datos reales como filmaciones de cámaras de CCTV. Este artículo de la investigación de Apple ML ha tenido un gran impacto en la comunidad este año. En mi opinión, va a desencadenar muchos más documentos en esta dirección: [1612.07828] Aprendiendo de imágenes simuladas y no supervisadas a través del entrenamiento adversario.
Aprendizaje de una sola vez : El aprendizaje de una sola vez recibe cada vez más atención este año. Algunos documentos notables en este espacio incluyen: [1702.06559] Aprendizaje activo de una sola vez y [1605.06065] Aprendizaje único de una vez con redes neuronales aumentadas por memoria

En resumen, creo que estamos trabajando en anotaciones cada vez menores para los datos de capacitación y, por lo tanto, los documentos más impactantes de este año hasta ahora han estado en este espacio.

Abdi Cali

El aprendizaje profundo (DL) ha sido el centro de atención para la mayoría de los problemas, especialmente los problemas a gran escala. Hasta ahora, se trataba principalmente de capas escasamente conectadas que dependen de conexiones explícitas de alimentación directa o recurrentes, por lo que la entrada se transforma progresivamente en una señal de salida de alto nivel.

Hay un problema con ese enfoque, al menos cuando tienes más de 100 capas de tales transformaciones, porque durante la propagación hacia atrás de los errores, la señal de error puede desaparecer a medida que se mueve hacia el lado de entrada. Los investigadores de Microsoft crearon una conexión de mapeo de identidad (omisión) junto a cada capa. Por ejemplo, dada una capa normal definida por una transformación [math] f () [/ math] tenemos:

[matemáticas] y = f (x) [/ matemáticas]

mientras que uno con conexión de salto hace:

[matemáticas] y = g (x) + x [/ matemáticas]

Así, la función (capa) [matemáticas] g () [/ matemáticas] aprende el residual, de ahí el término redes neuronales residuales (ResNet [1]). Si no se desea la capa, entonces [math] g () = 0 [/ math], que es análogo al cortocircuito de esa capa. Estos modelos pueden ser extremadamente profundos porque el mapeo de identidad permite acortar algunas capas innecesarias y también ayuda al flujo de gradientes desde capas de alto nivel.

Pensé que no podía ser mejor que eso , pero me equivoqué, conozco a DenseNet [2], una innovación reciente que ganó el premio al mejor artículo en CVPR 2017. Mark Zuckerberg estaba orgulloso [3] de este logro proveniente de la investigación de inteligencia artificial de Facebook ( JUSTA).

DenseNet es una red neuronal convolucional con capas densamente conectadas. La capa [math] l [/ math] se conecta con todas las capas [math] l-1, l-2, …, 1 [/ math]. De esta manera, el número de parámetros se puede reducir drásticamente sin afectar el rendimiento de la red en términos de precisión.

La intuición detrás de DenseNet es que:

Las capas de alto nivel en los sistemas DL típicos solo se alimentan de las características de la capa inmediata a continuación. Esto significa que si se necesitan características de bajo nivel en un nivel alto, deberán volverse a aprender en esas capas de alto nivel. Por lo tanto, con DenseNet, incluso las capas de alto nivel tienen acceso a todas las funciones de nivel inferior y, por lo tanto, esto fomenta la reutilización de funciones. Si las características de bajo nivel son suficientes, las capas de alto nivel pueden decidir usarlas. Debo decir que este es un uso eficiente de las funciones.
También hay un excelente flujo de gradientes ya que las capas de bajo nivel pueden recibir gradientes directamente de las capas de alto nivel.
Dado que cada capa [math] l [/ math] se alimenta de una entrada concatenada de todas las salidas de las capas [math] l-1 [/ math] a continuación, la entrada puede tener diversas características incluso cuando el ancho de la red es muy estrecho . Esto hace posible reducir el número de parámetros pero aún así mantener un poder de representación saludable de la red.

Es interesante que un ajuste tan simple a la arquitectura de la red neuronal pueda tener un impacto tan grande en los resultados. De lejos, creo que este es uno de los trabajos más interesantes, por no decir que no hay otro trabajo interesante de CVPR 2017, hay muchos más.

El documento en sí está escrito claramente con bellas ilustraciones y es muy fácil de seguir.

Verifique la versión de DenseNet [4] de escala múltiple para obtener un documento de seguimiento.

Espero que esto ayude.

Notas al pie

[1] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes

[2] liuzhuang13 / DenseNet

[3] Mark Zuckerberg

[4] [1703.09844] Redes convolucionales densas de múltiples escalas para una predicción eficiente

Kaushal Patel

Mis mejores momentos:

Alphago Zero: ¡ el juego personal funciona ! Finalmente es lo suficientemente estable y, como resultado, puede iniciarse a niveles sobrehumanos (a diferencia de 2016 cuando las mejoras en el autojuego fueron algo marginales) [1]
Simulación al mundo real: los robots están llegando. En robótica hay los primeros signos de que puedes pasar de la simulación al mundo real mientras entrenas solo en simulación. Esto es enorme, anteriormente necesitabas volver a entrenar tu algoritmo en cada nuevo robot físico en cada nueva tarea. Puede iterar órdenes de magnitud más rápido en la simulación. [2] [3]
La atención es todo lo que necesita: en la traducción automática, puede ingresar un día en una GPU al mismo nivel que el estado de la técnica en 2016 (que necesitaba 96GPU durante 3 semanas) (el algoritmo es mucho más eficiente ya que no hay dependencias secuenciales en la arquitectura, también el código está disponible, qué bueno es eso) [4]

[1] Dominando el juego de Go sin conocimiento humano

[2] [1709.07857] Uso de la simulación y la adaptación del dominio para mejorar la eficiencia del agarre robótico profundo

[3] Generalizando desde la simulación

[4] [1706.03762] La atención es todo lo que necesitas

Joshua Gross

El avance más significativo para mí es cierta claridad sobre las limitaciones del aprendizaje profundo.

Aparte de eso, estoy principalmente interesado en las aplicaciones de aprendizaje automático, que es lo que colorea mis preferencias en la siguiente lista.

Conocimiento del dominio

El avance de la década que cambió la cara del aprendizaje automático ocurrió hace 5 años con el artículo NIPS 2012 de Alex Krizhevsky [0], que revivió el aprendizaje profundo.

En los últimos 5 años, la mayoría de los avances involucraron agarrar las frutas bajas que el artículo de Krizhevsky expuso: aplicar DL al problema X **.

Con el rendimiento en tales problemas saturados, la tendencia más importante en 2017 para mí es el lento retorno del conocimiento del dominio [1,2,3,4,5,6,26]. Hemos examinado hasta qué punto nos pueden llevar los enfoques basados en datos, y está claro que los datos por sí solos no nos llevarán hasta el final [7] para resolver muchos de los problemas relevantes. Entonces, el siguiente paso es incorporar fuertes antecedentes en las redes. Esto es desafiante porque, a diferencia de los modelos gráficos probabilísticos, necesitamos nuevas ideas importantes para convertir a los anteriores en redes convolucionales.

DL vs. (algunos) sistemas bien diseñados

Otro descubrimiento significativo, quizás relacionado para mí, es la claridad de que DL ni siquiera puede vencer a algunos sistemas diseñados a mano. Específicamente, vimos varios documentos [8,9] este año que indicaban que las características aprendidas de CNN para la coincidencia de puntos clave no superan a las artesanales. También vimos que los sistemas SLAM entrenados de extremo a extremo [10] no superan las tuberías estándar.

Incluso un problema de reconocimiento visual, es decir, la detección de instancias de objetos específicos hasta el momento no parece susceptible de aprendizaje profundo, y el estado del arte en el problema sigue siendo la canalización tradicional [11,12].

Memorización en redes neuronales profundas

Un avance importante o confirmación en nuestra comprensión de cómo funcionan las redes neuronales provino de [22] que mostró que las CNN pueden incluso lograr un error de entrenamiento cero en conjuntos de datos etiquetados al azar que indican la capacidad de memorización masiva de estas redes y plantearon preguntas sobre si son algo más que grandes tablas hash sensibles a la localidad! Afortunadamente, en el mismo año, y gracias a arXiv, también pudimos ver [23] que encuentra que, de hecho, el entrenamiento de NN es más sensato que eso, y cuando existen patrones reales, se aprenden primero de manera generalizable antes de que ocurra la memorización.

LSTM convolucionales para navegación

Un trabajo que me encantó explícitamente incorpora un mapa en una red neuronal es [21]. Obviamente, esto está relacionado con el encabezado anterior de incorporar conocimiento de dominio en NN. Elimina la necesidad de SLAM en la navegación, y también parece biológicamente realista, aunque sería más impresionante prácticamente si no necesitara odometría de verdad. Si bien este documento [21] utiliza el aprendizaje supervisado, hay otro trabajo [28] que emplea el aprendizaje por refuerzo para entrenar un modelo similar.

GAN condicionales

También me encontré fascinado por las aplicaciones de las GAN condicionales [13,14,15]. Creo que estos modelos serán responsables de grandes cosas en los próximos años.

Conjuntos de datos de escena 3D

Otro avance significativo son los conjuntos de datos a gran escala recientemente propuestos de escenas 3D [16,17,18]. ImageNet sigue siendo el mayor conjunto de datos de visión por computadora que tiene la comunidad, 7 años después de su lanzamiento; y es el conjunto de datos que tuvo una gran parte en hacer que el trabajo de Krizhevsky [0] tenga éxito.

Pero el mundo real no es solo imágenes 2D de Internet. Estos conjuntos de datos permitirán una gran cantidad de nuevas capacidades [19].

CNN para lenguaje

Otro avance significativo es [20], que introduce una red convolucional que puede competir con los RNN para el procesamiento del lenguaje.

Los RNN me han decepcionado en la visión por computadora, y con este trabajo parece que también en el lenguaje, los CNN los golpearán completamente.

CNN para datos extrañamente estructurados

Que yo sepa antes de 2017, las CNN se aplicaron exclusivamente a representaciones volumétricas al procesar datos 3D. [24,27] introduce un enfoque para interpretar las nubes de puntos directamente.

Finalmente, también creo que las redes convolucionales de gráficos [25] que permiten aplicar toda esta maquinaria de aprendizaje profundo a los gráficos serán importantes.

** En consecuencia, vimos a los investigadores (i) aproximar funciones de valor RL utilizando redes neuronales, (ii) reemplazar la detección tradicional de objetos visuales, la segmentación semántica, incluso tareas de bajo nivel como flujo óptico y estéreo con CNN, (iii) inventar subtítulos de imágenes con LSTM y CNN, (iv) obtienen traducción de idiomas para explotar LSTM y, recientemente, incluso CNN, (v) obtienen reconocimiento de voz implementado en productos a gran escala, entre otras aplicaciones.

[1] https://arxiv.org/pdf/1705.00754 …

[2] https://arxiv.org/pdf/1612.00380 …

[3] https://arxiv.org/pdf/1612.02699 …

[4] https://arxiv.org/pdf/1710.00489 …

[5] https://arxiv.org/pdf/1703.06211 …

[6] https://arxiv.org/pdf/1612.00404 …

[7] [1707.02968] Revisando la efectividad irracional de los datos en la era del aprendizaje profundo

[8] https://arxiv.org/pdf/1704.05939 …

[9] https://www.researchgate.net/pro …

[10] https://arxiv.org/pdf/1709.08429 …

[11] https://www.cv-foundation.org/op …

[12] https://arxiv.org/pdf/1703.10896 …

[13] https://arxiv.org/pdf/1611.07004 …

[14] https://arxiv.org/pdf/1703.05192 …

[15] https://arxiv.org/pdf/1710.10196 …

[16] https://arxiv.org/pdf/1702.04405 …

[17] https://arxiv.org/pdf/1709.06158 …

[18] https://arxiv.org/pdf/1612.07429 …

[19] https://arxiv.org/pdf/1611.08974 …

[20] https://arxiv.org/pdf/1705.03122 …

[21] https://arxiv.org/pdf/1702.03920 …

[22] https://arxiv.org/pdf/1611.03530 …

[23] https://arxiv.org/pdf/1710.05468 …

[24] https://arxiv.org/pdf/1612.00593 …

[25] https://arxiv.org/pdf/1609.02907 …

[26] https://arxiv.org/pdf/1703.00443 …

[27] https://arxiv.org/pdf/1704.01222 …

[28] https://arxiv.org/pdf/1702.08360 …

Chomba Bupe

El aprendizaje automático ha estado trabajando silenciosamente en segundo plano durante años, impulsando aplicaciones móviles y motores de búsqueda.

1. Aprendizaje automático en finanzas

La industria financiera ha utilizado históricamente el aprendizaje automático en los servicios al consumidor, como la verificación de crédito y la investigación de fraude. Pero recientemente, con una potencia informática más accesible y herramientas de código abierto, el sector financiero está utilizando el aprendizaje automático en aplicaciones que van desde la aprobación de préstamos y evaluaciones de riesgos, hasta la gestión de activos.

Un avance reciente llamado análisis de sentimientos implica considerar el impacto de las redes sociales y las tendencias de noticias en los precios de los productos básicos. El aprendizaje automático se emplea para replicar la respuesta humana a los asuntos actuales para la toma de decisiones en el comercio de fondos de cobertura. El Dr. Ben Goertzel, de la Fundación OpenCog, declaró que lo que falta en la IA actual es la “energía cognitiva” que integra procesos fisiológicos y bioquímicos en una amalgama de interconexiones y asociaciones, dando lugar a la inteligencia humana. La fundación ha avanzado un poco para llevar este componente a la IA. El fondo de cobertura negocia completamente independiente de la interacción humana y utiliza la lógica probabilística para analizar e interpretar los datos del mercado diario, noticias y redes sociales, hacer predicciones y decidir el mejor curso de acción.

Esta aplicación definitivamente agregará valor a los sectores del mercado y transformará la forma en que opera la economía. Toma en consideración factores influyentes en los mercados, como las tendencias de noticias, haciendo predicciones para las cuales los humanos no tienen la capacidad.

2. Conducción autónoma.

Con una tasa de mortalidad de automóviles de 1.2 millones de personas por año y un 90 por ciento atribuido a errores humanos, la idea de vehículos autónomos tiene un mérito innegable. Los AV comprenden una variedad de sensores para evaluar la distancia, la velocidad y el terreno. En consecuencia, los vehículos están más equipados para hacer frente a una emergencia que sus homólogos humanos.

Para ilustrar el potencial, imagine este escenario: un AV está parado en una luz roja en peligro de impacto desde atrás por un automóvil que se acerca rápidamente. El AV de repente acelera hacia la intersección para evitar la colisión y simultáneamente cambia las luces a rojo. La motivación para este tipo de tecnología es preservar la vida y tener flotas de AV en las calles excluirá de la dinámica el error humano, la ira en la carretera y otros problemas de tráfico.

3. Exploración espacial

En el campo de la exploración espacial, la conducción autónoma no es un concepto nuevo. El AutoNav ha estado conduciendo el rover de Marte desde 2004. Se están aliviando los problemas de radiación y confiabilidad que han mantenido la computación espacial en el pie trasero. La investigación para mejorar la confiabilidad del rover Mars está en marcha, con el aprendizaje automático en su núcleo. Mediante el uso de un “clasificador de terreno basado en la visión y un planificador de ruta consciente del riesgo”, tiene como objetivo impartir al rover un pensamiento humano sobre el riesgo, lo que permite un recorrido más seguro.

Al poder navegar de forma remota con mayor precisión, permitirá la exploración de entornos extremos. Por ejemplo, la investigación del océano subsuperficial de Europa es ahora una posibilidad distinta.

4. Asistencia sanitaria y medicina

La medicina de precisión desafía el enfoque tradicional de amplio espectro. Esta nueva forma de atención médica implica datos biométricos constantes transmitidos por wearables, algoritmos y herramientas moleculares.

Este desarrollo está cambiando la medicina, permitiendo la identificación no subjetiva de los síntomas y ofreciendo plataformas para interpretar y conectar datos de Ebook Week. El éxito de este sistema depende del desarrollo de herramientas de aprendizaje automático precisas y consistentes para decidir el mejor régimen de tratamiento basado en los datos recopilados específicos del individuo.

Esto supera las barreras culturales y de idioma y, por lo tanto, tiene un valor inherente para la profesión médica y también puede mitigar las respuestas emocionales de los médicos humanos que a menudo restan valor a los diagnósticos y protocolos de tratamiento precisos.

5. Ayuda humanitaria

Los drones son la solución lógica para llevar suministros a ubicaciones remotas y peligrosas. Esto es especialmente cierto para ubicaciones a grandes distancias del centro de control. Qualcomm presentó una plataforma de drones que utiliza control de vuelo y aprendizaje automático. El aprendizaje automático no es un concepto nuevo en la tecnología de drones, pero lo que hace que esta versión en particular sea superior es que el dron puede aprender activamente sobre los entornos que ocupa, sin conocimiento previo. El verdadero vuelo autónomo será valioso para los servicios de ayuda humanitaria.

El aprendizaje automático es el núcleo de muchas innovaciones que se establecen para mejorar nuestra vida cotidiana. En 2017, también tendrán una consecuencia positiva perceptible para la sociedad y la economía.

Abdi Cali

2016 fue el mejor año de desarrollo para AI y ML.

Pero 2017 también ha traído desarrollos en muchas áreas de ML

Reconocimiento de voz.

IBM pudo desarrollar un sistema llamado “SWITCHBOARD” que permite que las computadoras detecten voces aún mejores e incluso conversaciones que permiten que una computadora escuche a los humanos teniendo una conversación.

El reconocimiento Check Speech obtiene un nuevo registro de IBM

Sistemas de recomendación.

Consiste en softwares que predicen qué música te gustaría escuchar o qué producto te gustaría según lo que hayas elegido antes.

Este año hubo un gran salto en esta área debido a las mejoras en las áreas digitales y las áreas industriales que ayudaron a las personas a tener mejores y mejores recomendaciones de acuerdo con lo que necesitan.

Consulte MLRec 2017, el área de tema de intereses refleja las áreas desarrolladas este año.

Vehículos autónomos

Todos sabemos cómo funcionan.

Este año ha habido grandes avances en el desarrollo de nuevos conceptos de automóviles que están listos para adaptarse a situaciones de peligro de la vida real y casos de esquina.

Además de eso, también tiene desarrollos en el software que permitirían a los autos autónomos reducir mucho flujo de tráfico al conocer las mejores rutas y estar perfectamente sincronizados.

Aquí hay algunas estadísticas Los vehículos conectados y autónomos mejorarán la calidad de vida de 6 de cada 10 personas con movilidad limitada, encuentra un nuevo estudio – SMMT

Por lo tanto, en general, 2017 fue el año para recoger los desarrollos extraordinarios de 2016 y continuar implementando avances que garantizarán vidas más fáciles para todos.

¡Espero que les haya gustado!

Imágenes de google images.

Zero

Para mí, la adaptación de dominio (DA) es definitivamente el ganador de 2017: se han producido increíbles traducciones de imagen a imagen y de idioma a idioma, los métodos adversos para DA han hecho un gran progreso y se han propuesto algoritmos muy innovadores para abordar el problema gigante de adaptar dos dominios.

Por adaptación de dominio, me refiero a cualquier algoritmo que intente transferir dos dominios, generalmente llamados fuente y destino (por ejemplo, pinturas y fotos reales), a un dominio común. Para hacerlo, uno puede elegir traducir un dominio al otro (por ejemplo, traducir pinturas a fotos) o encontrar una incrustación común entre los dos dominios. Cuando solo el dominio de origen tiene etiquetas y el objetivo es predecir las etiquetas del dominio de destino, se llama adaptación de dominio sin supervisión y ahí es donde los avances fueron los más increíbles. Hay muchos puntos de referencia para evaluar un algoritmo DA, uno de los más comunes es predecir las etiquetas de SVHN (un conjunto de datos de dígitos construidos con números de casa) utilizando MNIST (el conjunto de datos de dígitos escritos a mano más común) y sus etiquetas. En un año, los resultados pasaron del 90% (con Domain Transfer Network (DTN) [1], que ya era una gran mejora en los métodos anteriores que dieron vuelta al 82%, como DRCN [2]) al 99.2% (con auto -ensamblar DA [3]). Además de este análisis cuantitativo, las traducciones realizadas por algunos algoritmos lanzados este año son cualitativamente sorprendentes, particularmente en DA visual y PNL.

Figura 1. Transferencia de SVHN a MNIST por SBADA-GAN [4] , mayo de 2017. Para probar un algoritmo DA, se puede tratar de predecir las etiquetas de SVHN utilizando solo las etiquetas de MNIST y la traducción no supervisada entre SVHN y MNIST.

Intentemos resumir lo maravilloso que ha sido este año para la adaptación del dominio:

Adaptación de dominio adversa

Si 2015 vio el nacimiento de la adaptación de dominio adversarial (con DANN [5]) y 2016 el nacimiento de la adaptación de dominio basada en GAN (con CoGAN [6] y DTN [7]), 2017 ha visto grandes mejoras y resultados sorprendentes con estos métodos . La idea detrás de DA adversarial es entrenar dos redes neuronales: un discriminador que intenta separar el dominio objetivo del dominio fuente transformado, y un generador que intenta engañar al discriminador para que el dominio fuente se parezca lo más posible al dominio objetivo. . Básicamente es una GAN pero toma la distribución de origen como entrada en lugar de una distribución uniforme (generalmente se llama una GAN condicional ). He realizado una pequeña animación para explicar el concepto más visualmente (puedes encontrar el código aquí):

Figura 1. Adaptación del dominio de confrontación basada en GAN para dos dominios gaussianos. El discriminador (fondo) intenta separar la distribución verde de la distribución naranja, y el generador modifica la distribución verde para engañar al discriminador. Puedes encontrar el código aquí .

Entonces, ¿cuáles fueron los “avances significativos” en 2017?

Primero, en febrero, ADDA [8] lanzó un marco teórico generalizado para la adaptación del dominio de adversarios y logró un puntaje de 76.0% con una simple pérdida de GAN en SVHN → MNIST (que pensaron que era el mejor puntaje para una red de adversarios en esta tarea, pero probablemente no habían oído hablar de DTN en el momento en que presentaron su artículo).

Un mes después, ocurrió la contribución más importante de la DA adversaria: la invención de la pérdida de consistencia del ciclo por parte de CycleGAN [9]. Este artículo fue una verdadera revolución. Su idea era entrenar dos GAN condicionales, una transferencia de fuente a destino y la otra de destino a fuente, y considerar una nueva pérdida, llamada consistencia de ciclo, que asegura que si conecta las dos redes juntas producirá un mapeo de identidad (fuente → destino → fuente). Sus ejemplos de transferir caballos a cebras o pintar fotos se han vuelto realmente famosos y lo considero uno de los mejores de este año. Al contrario de otros métodos como pix2pix [10], no entrenaron su algoritmo en pares de imágenes (como una foto de gato y el boceto de este mismo gato, para pix2pix), sino solo en las dos distribuciones separadas, lo que hace que su Resultados aún más impresionantes.

Figura 2. Ejemplos de traducciones de imagen a imagen con CycleGAN

Lo divertido es que un montón de otros documentos descubrieron la pérdida de consistencia del ciclo simultáneamente, entre marzo y mayo, a veces dándole otro nombre (como pérdida de reconstrucción ). Es, por ejemplo, el caso de DiscoGAN [11], cuya pérdida fue un poco diferente (entropía cruzada para la pérdida de GAN en lugar de MSE, por ejemplo) pero también lograron resultados increíbles, logrando transferir ambas propiedades de textura (como la transformación de rubio- personas de cabello a cabello castaño, mujeres a hombres o personas con anteojos a personas sin anteojos) y propiedades geométricas (sillas para automóviles y caras para automóviles).

Figura 3. Ejemplos de traducciones de imagen a imagen con DiscoGAN

También es el caso de DualGAN [12], que utilizó la pérdida del ciclo con un WGAN y otros trucos recientes sobre cómo entrenar GAN. Lo aplicaron el día ← → noche o boceto ← → traducción de fotos, y aquí están los resultados:

Figura 4. Ejemplos de traducciones de imagen a imagen con DualGAN

Pero esos 3 documentos no consideraron ningún conjunto de datos con una tarea (como la clasificación), por lo que no dieron ninguna evaluación cuantitativa de su método. SBADA-GAN [13] lo hizo agregando un clasificador al final de su red para predecir las etiquetas de la muestra de origen y de destino transformada. Durante el entrenamiento, se asignan pseudo-etiquetas a las muestras objetivo y contribuyen a la pérdida de clasificación. La puntuación obtenida para SVHN → MNIST no es muy buena (~ 76% , igual que ADDA), pero lograron un nuevo estado de la técnica en la transformación opuesta (MNIST → SVHN) y en MNIST ← → USPS (otro manuscrito de datos de dígitos muy cerca de MNIST).

Este año se han probado otros tipos de arquitecturas adversarias con más éxito en los puntos de referencia de dígitos, como GenToAdapt [14] en abril, que realizó el primer estado real del año en SVHN → MNIST, con un puntaje de 92.4% . Su técnica consistía básicamente en utilizar una GAN para generar imágenes de origen de muestras de origen y de destino, y para discriminar tanto las muestras reales frente a las falsas y las diferentes clases de las muestras de origen (como AC-GAN). La incrustación aprendida se usa para entrenar a una tercera red, C, para predecir directamente las etiquetas de las muestras de entrada. La figura a continuación (del documento original) es ciertamente más clara que mi explicación:

Figura 5. La arquitectura de GenToAdapt

También es el caso de UNIT [15], un método de confrontación propuesto por Nvidia. Como en muchos documentos de Nvidia, realizaron una gran cantidad de experimentos asombrosos (traducción de imagen a imagen entre diferentes condiciones externas en el camino, entre GTA y la realidad, entre diferentes razas de perros, etc.). También probaron su algoritmo en SVHN → MNIST, y obtuvieron 90.53% , que está muy cerca del puntaje DTN, pero lograron transferir imágenes de mucha mayor resolución. Su técnica se basa en CoGAN [16], que consiste en dos GAN, una para generar el dominio de origen y otra para el dominio de destino, con distribución de peso para algunas capas. La principal contribución de Nvidia fue reemplazar el generador por un VAE. De hecho, muestran que la pérdida de VAE es equivalente a la restricción de consistencia del ciclo descrita en los documentos anteriores.

Figura 6. Ejemplos de traducciones de imagen a imagen con UNIT

Sin embargo, esas arquitecturas solo son capaces de transferir un dominio de origen a un dominio de destino a la vez. Pero si tiene varios dominios, debería haber una manera de capacitar a una red para realizar transferencias en todos los dominios. En noviembre StarGAN [17] adaptó CycleGAN a este llamado problema de adaptación de dominio de múltiples fuentes. Sus resultados al transferir diferentes colores de cabello o emociones para la misma persona fueron bastante sorprendentes como puedes ver:

Figura 7. Ejemplo de traducciones de imágenes multidominio con StarGAN

Puede parecer a partir de los ejemplos anteriores que la comunidad de DA está poniendo todos sus esfuerzos en la visión por computadora (CV). Pero uno de los documentos DA más impresionantes (y compartidos) del año es el procesamiento del lenguaje natural (PNL): Traducción de palabras sin datos paralelos [18]. Básicamente, utilizaron DA adversarial para encontrar una integración común entre muestras de dos idiomas (fuente y destino), ¡y lograron realizar traducciones muy precisas sin haberse entrenado en ningún ejemplo de traducción! Si lees el documento, puedes notar que la expresión “adaptación de dominio” no se ha usado una vez … Dado que la mayoría de las personas de DA tienen visión por computadora, parece que los muchachos de la PNL que escribieron este documento no sabían que su trabajo entraba en juego. adaptación de dominio. Así que creo que la PNL se beneficiaría mucho al probar en sus datos todos los nuevos métodos DA que la comunidad CV ha inventado este año.

Figura 8. Alineación de los espacios de palabras de incrustación de los dominios de origen (inglés) y de destino (italiano).

Finalmente, solo he hablado sobre la adaptación de dominio no emparejado (donde no usas ningún par de muestras de origen / destino correspondientes durante el entrenamiento), pero el DA emparejado también ha conocido una pequeña revolución con pix2pixHD [19]. Básicamente es una versión mejorada de pix2pix (una GAN condicional entrenada en pares de imágenes) con muchos trucos para hacerla escalable a imágenes más grandes. Entrenaron a su red para transformar mapas semánticos en fotos realistas de escenas callejeras, como se puede ver en la siguiente animación:

Figura 9. Traducción de un mapa semántico (mapa de etiquetas) a una escena callejera real con pix2pixHD

Métodos de incrustación

Además del DA adversario, se han probado muchos otros métodos este año, algunos de ellos con mucho éxito. Es el caso de dos métodos recientes que intentan encontrar una integración común entre los dominios de origen y destino, lo que lleva al final a una única red neuronal capaz de clasificar tanto las muestras de origen como las de destino.

El primero es DA asociativo ( [math] DA_ {assoc} [/ math] ) [20] quienes alcanzaron un puntaje de 97.6% en SVHN → MNIST. Para encontrar la mejor integración, utilizaron la nueva tendencia de 2017 … ¡pérdida de consistencia del ciclo! Sí, de nuevo, pero esta vez sin ninguna red GAN u otra red de confrontación: solo intentan aprender una incrustación (última capa de una red neuronal) de tal manera que la probabilidad de traducir una muestra de origen a una muestra de destino (en función de la distancia entre dos puntos en el espacio de inserción), luego la conversión de esta muestra objetivo a otra muestra fuente será alta si las dos muestras fuente pertenecen a la misma clase.

El segundo es DA de autoensamblaje [21] , quien ¡Realmente destruyó nuestro punto de referencia SVHN → MNIST con un puntaje de 99.2% ! ¡Tendremos que encontrar otros puntos de referencia el próximo año! Hicieron esta proeza adaptando Mean Teacher, un método que proviene del aprendizaje semi-supervisado que ha logrado SOTA reciente en este campo, a la adaptación del dominio. La idea es tener dos redes, un estudiante y un maestro, y hacer de los pesos del maestro un promedio móvil de todos los pesos que el estudiante recibió durante el entrenamiento. Luego, las muestras de origen etiquetadas se usan para entrenar al alumno para que sea un buen clasificador, y las muestras objetivo sin etiquetar para entrenar al alumno para que sea como el maestro (con una pérdida de consistencia). Puedes encontrar una explicación más visual aquí.

Transporte óptimo (OT)

Este año se ha desarrollado otro tipo de método: adaptación del dominio basada en el transporte óptimo. El transporte óptimo es un área enorme de matemática aplicada, que consiste en encontrar el mejor plan de transporte de una distribución a otra, minimizando el costo total de transportar una masa fuente a un punto objetivo. Por ejemplo, si considera dos conjuntos de puntos (con el mismo número de puntos cada uno), fuente y destino, y toma como función de costo simplemente la distancia euclidiana, el transporte óptimo le pide que asocie cada punto fuente a un punto objetivo, por lo que que la distancia total se minimiza. Aquí está la solución para dos dominios gaussianos:

Figura 10. El mejor plan de transporte entre dos dominios gaussianos. Cada punto fuente se transporta a un punto objetivo, y la distancia total se minimiza. Este gráfico ha sido producido con la biblioteca POT .

Este artículo de blog es una excelente introducción si desea obtener más información sobre OT.

Si comienza a comprender una adaptación de dominio de bits, creo que ahora puede ver claramente el vínculo entre OT y DA. La relación entre esos dos campos había sido teorizada en 2016 [22], pero ha surgido un algoritmo muy interesante en

2017: Transporte óptimo de distribución conjunta (JDOT) [23] . Su método es un proceso iterativo: en cada iteración, se otorgan pseudo-etiquetas a cada punto objetivo (al principio usando un clasificador entrenado en las muestras de origen). Entonces, el objetivo es transportar cada punto de origen a un punto de destino, minimizando no solo la distancia total recorrida, sino también el número de cambio de etiqueta durante el transporte (entre la etiqueta del punto de origen y la pseudo-etiqueta del objetivo punto). Hice una explicación visual aquí: una explicación visual del algoritmo JDOT, resumida en este GIF (no estoy seguro si es comprensible sin hacer una pausa en cada paso):

Figura 11. Animación que muestra los diferentes pasos del algoritmo JDOT. Puede encontrar todas esas imágenes separadas y asociadas a algunas explicaciones aquí .

En cuanto al rendimiento de este algoritmo, son prometedores en el punto de referencia Office + Caltech (imágenes de muebles de oficina tomadas con diferentes cámaras), pero aún queda una evaluación más completa.

En resumen, 2017 no solo ha destruido algunos puntos de referencia de adaptación de dominio, sino que también ha producido las primeras traducciones de alta calidad de un dominio a otro (como puede ver en todas las imágenes anteriores). Pero aún podemos hacerlo mucho mejor en muchos puntos de referencia más complicados y adaptar DA a otras áreas del aprendizaje automático (como el aprendizaje por refuerzo y la PNL), por lo que 2018 tiene todas sus posibilidades de ser tan increíble como 2017, y espero ver qué ¡da!

Si desea obtener más información sobre la adaptación del dominio, estoy manteniendo una lista actualizada de excelentes recursos (documentos, conjuntos de datos, resultados, etc.) sobre DA y el aprendizaje de transferencia en este repositorio de GitHub.

Descargo de responsabilidad: la descripción de esos documentos solo corresponde a mi comprensión actual de ellos, así que tómalo con un grano de sal y no dudes en decirme si soy incorrecto o impreciso en algunas de mis explicaciones. Con respecto a los resultados que doy, son solo los que se dan en los documentos originales y se debe utilizar una metodología más rigurosa para hacer una comparación real.

Notas al pie

[1] https://arxiv.org/pdf/1611.02200 …

[2] https://arxiv.org/pdf/1607.03516 …

[3] https://arxiv.org/pdf/1706.05208 …

[4] https://arxiv.org/pdf/1705.08824 …

[5] https://arxiv.org/pdf/1505.07818 …

[6] https://arxiv.org/pdf/1606.07536 …

[7] https://arxiv.org/pdf/1611.02200 …

[8] https://arxiv.org/pdf/1702.05464 …

[9] https://arxiv.org/pdf/1703.10593

[10] https://arxiv.org/pdf/1611.07004 …

[11] [1703.05192] Aprendiendo a descubrir relaciones entre dominios con redes adversas generativas

[12] https://arxiv.org/pdf/1704.02510 …

[13] https://arxiv.org/pdf/1705.08824 …

[14] https://arxiv.org/pdf/1704.01705 …

[15] https://arxiv.org/pdf/1703.00848 …

[16] https://arxiv.org/pdf/1606.07536 …

[17] https://arxiv.org/pdf/1711.09020 …

[18] https://arxiv.org/pdf/1710.04087 …

[19] https://arxiv.org/pdf/1711.11585 …

[20] https://arxiv.org/pdf/1708.00938 …

[21] https://arxiv.org/pdf/1706.05208 …

[22] https://arxiv.org/pdf/1610.04420 …

[23] https://arxiv.org/pdf/1705.08848 …

Colleen Farrelly

En cuanto a los avances de la investigación, el tema más importante es la IA adversaria. Cualquiera que entienda ML comprende que es potencialmente altamente vulnerable a los ataques contra sistemas y capacitación, pero este año ha sido especialmente productivo al demostrar la vulnerabilidad de los sistemas actuales:

Reconocimiento facial que se puede confundir fácilmente o dar falsos positivos.
Coincidencia de imágenes que no puede manejar imágenes donde la compresión ha dificultado la extracción de funciones
Autos sin conductor que pueden ser fácilmente engañados para golpear cosas

Afortunadamente, hasta ahora todo esto se ha hecho en el laboratorio. Hasta donde sabemos.

Los escépticos de la IA, como siempre, murmuran suavemente “ya te lo dije”.

Alecia Li Morgan

Un modelo para aprenderlos todos

Creo que este es uno de los principales avances realizados en 2017.
Publicado por Google, este documento habla de un marco sobre la creación de un modelo de aprendizaje automático único que puede manejar múltiples tareas desde múltiples dominios.

El modelo ha sido entrenado en reconocimiento de imágenes, tareas de traducción, subtítulos de imágenes, reconocimiento de voz y análisis en inglés.

Este enfoque de aprendizaje multimodal ha demostrado mejorar la representación aprendida en un entorno no supervisado, y eso es un avance hacia la generalización.

Para mí, la conclusión principal de este documento fue donde decía que los bloques computacionales para un dominio mejoraron el rendimiento de las tareas en otros dominios.

Supongo que este comportamiento imita el aprendizaje en la red neuronal humana, ya que la investigación ha demostrado que entrenarse simultáneamente en tareas no relacionadas (como aprender lenguaje y aprender matemáticas) mejora nuestro rendimiento general de aprendizaje en ambos.

Anubhav Balodhi

Definitivamente más eficiente, aprendizaje profundo de dispositivos móviles.

En los últimos años, gran parte del enfoque de la comunidad investigadora ha sido aplicar el aprendizaje profundo a nuevas tareas. Una vez que descubrimos cómo aplicar redes profundas a una tarea en particular, intentaremos aumentar la precisión. Se ha puesto muy poco énfasis en la aplicación práctica del aprendizaje profundo .

Las aplicaciones móviles representan una participación de mercado masiva y son increíblemente populares, pero muchas redes profundas requieren GPU para funcionar a cualquier velocidad razonablemente práctica.

En 2017, los investigadores de Deep Learning finalmente comienzan a progresar para hacer que las redes profundas sean más eficientes, tanto en términos de velocidad como de consumo de memoria.

Echa un vistazo a estos impresionantes documentos recientes:

MobileNets: redes neuronales convolucionales eficientes para aplicaciones de visión móvil

SkipNet: Aprendizaje del enrutamiento dinámico en redes convolucionales

Segmentación del cabello: [1712.07168] Esteras de cabello profundo en tiempo real en dispositivos móviles

Colleen Farrelly

El análisis de datos topológicos está ganando terreno y se está integrando con algoritmos de visión por computadora y aprendizaje automático, particularmente aprendizaje profundo y máquinas de vectores de soporte.

Los métodos de conjunto continúan dominando el rendimiento en pequeños conjuntos de datos tanto en precisión como en velocidad. Estos métodos se están abriendo camino hacia el aprendizaje no supervisado, la reducción de la dimensionalidad y otras nuevas áreas de aplicación.

Las redes de tensor han obtenido grandes victorias en aplicaciones académicas y de la industria, lo que permite la integración de datos que toman diferentes formas (combine una hoja de cálculo con una red o datos de imagen).

Vea mi perfil académico de Google para ver algunos artículos de revisión y documentos de aprendizaje de TDA / conjunto del año pasado.

Chomba Bupe

AVANCES DE APRENDIZAJE DE LA MÁQUINA: –

Refuerzo positivo

La histórica victoria de AlphaGo contra uno de los mejores jugadores de Go de todos los tiempos, Lee Sedol, fue un hito para el campo de la IA, y especialmente para la técnica conocida como aprendizaje de refuerzo profundo.
El aprendizaje de refuerzo se inspira en las formas en que los animales aprenden cómo ciertos comportamientos tienden a dar como resultado un resultado positivo o negativo. Con este enfoque, una computadora puede, por ejemplo, descubrir cómo navegar por un laberinto por prueba y error y luego asociar el resultado positivo, salir del laberinto, con las acciones que lo llevaron a él. Esto permite que una máquina aprenda sin instrucciones o incluso ejemplos explícitos. La idea ha existido durante décadas, pero combinarla con redes neuronales grandes (o profundas) proporciona la potencia necesaria para que funcione en problemas realmente complejos (como el juego Go). A través de la experimentación implacable, así como el análisis de juegos anteriores, AlphaGo descubrió por sí mismo cómo jugar el juego a un nivel experto.
La esperanza es que el aprendizaje por refuerzo ahora resultará útil en muchas situaciones del mundo real. Y el lanzamiento reciente de varios entornos simulados debería estimular el progreso en los algoritmos necesarios al aumentar el rango de habilidades que las computadoras pueden adquirir de esta manera.
En 2017, es probable que veamos intentos de aplicar el aprendizaje por refuerzo a problemas como la conducción automatizada y la robótica industrial. Google ya se ha jactado de utilizar el aprendizaje de refuerzo profundo para hacer que sus centros de datos sean más eficientes. Pero el enfoque sigue siendo experimental, y aún requiere una simulación que requiere mucho tiempo, por lo que será interesante ver qué tan efectivamente se puede implementar.

Redes neuronales en duelo

En la reunión académica de inteligencia artificial celebrada recientemente en Barcelona, la conferencia de Sistemas de Procesamiento de Información Neural, gran parte del rumor se refería a una nueva técnica de aprendizaje automático conocida como redes generativas de confrontación.
Inventado por Ian Goodfellow, ahora científico investigador de OpenAI, las redes de confrontación generativa, o GAN, son sistemas que consisten en una red que genera nuevos datos después de aprender de un conjunto de entrenamiento, y otra que trata de discriminar entre datos reales y falsos. Al trabajar juntos, estas redes pueden producir datos sintéticos muy realistas. El enfoque podría usarse para generar escenarios de videojuegos, desdibujar secuencias de video pixeladas o aplicar cambios estilísticos a los diseños generados por computadora.
Yoshua Bengio, uno de los principales expertos mundiales en aprendizaje automático (y asesor de doctorado de Goodfellow en la Universidad de Montreal), dijo en NIPS que el enfoque es especialmente emocionante porque ofrece una forma poderosa para que las computadoras aprendan de datos no etiquetados, algo que muchos creen puede ser la clave para hacer que las computadoras sean mucho más inteligentes en los próximos años.

Auge de la IA de China

Este también puede ser el año en que China comience a verse como un jugador importante en el campo de la IA. La industria tecnológica del país está dejando de copiar compañías occidentales, y ha identificado la IA y el aprendizaje automático como las próximas grandes áreas de innovación.
La compañía de búsqueda líder de China, Baidu, ha tenido un laboratorio centrado en la IA durante algún tiempo, y está cosechando las recompensas en términos de mejoras en tecnologías como el reconocimiento de voz y el procesamiento del lenguaje natural, así como un negocio de publicidad mejor optimizado. Otros jugadores ahora están luchando para ponerse al día. Tencent, que ofrece la exitosa aplicación móvil de mensajería y redes WeChat, abrió un laboratorio de inteligencia artificial el año pasado, y la compañía estaba ocupada reclutando talento en NIPS. Didi, el gigante de viajes compartidos que compró las operaciones chinas de Uber a principios de este año, también está construyendo un laboratorio y, según los informes, trabaja en sus propios autos sin conductor.
Los inversores chinos ahora están invirtiendo dinero en nuevas empresas centradas en la inteligencia artificial, y el gobierno chino ha manifestado su deseo de ver florecer la industria de inteligencia artificial del país, comprometiéndose a invertir alrededor de $ 15 mil millones para 2018.

Aprendizaje de idiomas

Pregunte a los investigadores de IA cuál es su próximo gran objetivo, y es probable que mencionen el lenguaje. La esperanza es que las técnicas que han producido un progreso espectacular en el reconocimiento de voz e imagen, entre otras áreas, también puedan ayudar a las computadoras a analizar y generar el lenguaje de manera más efectiva.
Este es un objetivo de larga data en inteligencia artificial, y la posibilidad de que las computadoras se comuniquen e interactúen con nosotros usando el lenguaje es fascinante. Una mejor comprensión del lenguaje haría que las máquinas sean mucho más útiles. Pero el desafío es formidable, dada la complejidad, sutileza y poder del lenguaje.
No espere entablar una conversación profunda y significativa con su teléfono inteligente por un tiempo. Pero se están haciendo algunos avances impresionantes, y puede esperar más avances en esta área en 2017.

Reacción a la exageración

Además de los avances genuinos y las nuevas y emocionantes aplicaciones, en 2016, la exageración en torno a la inteligencia artificial alcanzó nuevas alturas. Si bien muchos tienen fe en el valor subyacente de las tecnologías que se desarrollan hoy en día, es difícil escapar de la sensación de que la publicidad que rodea a la IA se está yendo un poco de las manos.
Algunos investigadores de IA están evidentemente irritados. Se organizó una fiesta de lanzamiento durante NIPS para una startup de IA falsa llamada Rocket AI, para resaltar la creciente manía y las tonterías en torno a la investigación real de IA. El engaño no fue muy convincente, pero fue una forma divertida de llamar la atención sobre un problema genuino.
Un problema real es que la exageración inevitablemente conduce a una sensación de decepción cuando no ocurren grandes avances, lo que hace que las startups sobrevaloradas fallen y la inversión se agote. Tal vez 2017 presente algún tipo de reacción contra la máquina de publicidad de IA, y tal vez eso no sería tan malo.

Naran Bayanbat

Desde una perspectiva de investigación (según lo solicitado):

Las redes relacionales (Deepmind, junio de 2017) son bastante grandes. Son capaces de comprender las relaciones entre los objetos mencionados en el texto o vistos en las imágenes. Las redes relacionales de vanguardia ya son sobrehumanas. Lo que hacen es que pasan imágenes de entrada o texto a través de una red ConvNet o Recurrent Net, que genera un conjunto de objetos. Este conjunto, junto con una pregunta al respecto (como “¿De qué color tiene el cilindro grande al lado del cubo más pequeño?”) Se pasa al Módulo Relacional que lo responde.

Sí, de verdad 🙂

documento original de Deepmind: [1706.01427] Un módulo de red neuronal simple para razonamiento relacional

Eric

Xavier Amatriain

El aprendizaje profundo se usa para identificar los ingredientes que se usaron para hacer un alimento. Además, va un paso más allá para sugerir algunas otras recetas que podrían prepararse con los mismos ingredientes.

Dada una foto de un artículo alimenticio, Pic2Recipe podría identificar ingredientes como harina, huevos y mantequilla, y luego sugerir varias recetas que determinó que eran similares a las imágenes de la base de datos.

demostración en línea: http://tuesday.csail.mit.edu:4242/

Noticias: La inteligencia artificial sugiere recetas basadas en fotos de alimentos.

papel: http://im2recipe.csail.mit.edu/i …

Abdi Cali

Al no estar en contacto con la escena de investigación de ML actual, no puedo decir nada sobre los avances técnicos en 2017.

Lo que he observado es que la conciencia pública sobre el LA ha avanzado dramáticamente. Algunos de los incidentes que vienen a la mente incluyen:

Lo que aprenden los sistemas de aprendizaje automático se basa en lo que existe (los programas de IA exhiben prejuicios raciales y de género, según revela la investigación, los robots pueden ser racistas, pero los científicos pueden haber encontrado una manera de cambiar de opinión).
El uso de ML por las campañas presidenciales de 2016 y por los partidarios en el referéndum del Brexit se volvió controvertido en 2017.

Por lo tanto, la conciencia pública de la prevalencia de ML combinada con una comprensión madura de las limitaciones pragmáticas de la tecnología definitivamente ha cambiado tanto las percepciones como las actitudes hacia ML. Probablemente sea algo bueno.

Eric Steinberger

Creo que el trabajo en torno a las aplicaciones teóricas de los juegos, en particular aplicado a la resolución de juegos de información imperfecta, para mí personalmente, esta es el área más emocionante que realmente ha progresado durante 2017.

En particular, trabaje en el laboratorio de Tuomas Sandholm sobre el progreso del campo para que la minimización del arrepentimiento contrafactual sea más práctica. Aquí está el artículo que ganó el premio Best Paper en NIPS 2017

Solución de subjuegos segura y anidada para juegos de información imperfecta

aquí una charla, detallando el papel.

Aquí hay una charla del profesor Sandholm de 2015, que detalla su enfoque anterior para resolver juegos de información imperfecta de suma cero, dos jugadores.

Colleen Farrelly

Como Andrew Ng, ex científico jefe de Google y Baidu, admitió recientemente, todo el mundo está luchando para poner al día el aprendizaje automático, las redes neuronales y otras tecnologías para enfrentar los desafíos asociados con el desarrollo del manejo del Nivel 4 e incluso del Nivel 3 a gran escala. Diría que los avances más significativos de este año aún están por llegar (pero el tiempo se acaba).

Será interesante ver si algo en un nivel de investigación pura sale de Tesla a finales de este año, que nombró al reciente graduado de Stanford Andrej Karpathy para encabezar su IA e investigación. Karpathy es oriunda de OpenAI, cofundador de Elon Musk, CEO del instituto de investigación de inteligencia artificial de Tesla. Su doctorado de la Universidad de Stanford está en aprendizaje profundo y visión por computadora.

Nombrar Karpathy es una posibilidad remota. Musk ciertamente ha asumido un gran riesgo al nombrar a alguien con muy poca experiencia profesional para desempeñar un papel tan clave en la investigación de aprendizaje automático de Tesla, que eventualmente podría hacer o deshacer a la compañía, ya que mucho depende del éxito de su programa sin conductor.

Zeeshan Zia

Camiones autónomos : muchas empresas como Volvo, Otto y Petrtbit han estado investigando esto y puede encontrar un camión sin conductor que conduzca en autopistas cerca de usted en 5–10 años.

Los implantes cerebrales que son capaces de revertir la parálisis han experimentado un gran avance este año, en una década estarán disponibles para uso normal

Face ++ es una startup china con un valor de mil millones de dólares que permite a los usuarios de su base de datos realizar pagos, rastrear delincuentes y acceder a las instalaciones. También puede rastrear a las personas que usan cámaras instaladas en las calles. Quién sabe que tu país podría ser el próximo. Bueno, por supuesto, es un poco espeluznante pero también convincente.