¿Cuáles son los trabajos más interesantes de CVPR 2016 y por qué?

Entonces, ahora que CVPR 2016 está llegando a su fin (conferencia principal, en un par de horas más), iba a anotar mis impresiones por mí mismo, mientras todavía estaban frescas, pero luego vi esta pregunta y pensé por qué no grabarlas en Quora en su lugar.

Sin embargo, descargo de responsabilidad: ¡la siguiente respuesta probablemente no sea 100% relevante para la pregunta formulada! En realidad, no he leído algunos de los documentos mencionados a continuación, pero están en mi lista. Además, estoy trabajando en una presentación para una fecha límite cercana, ¡así que no podré ocuparme de la gramática y los errores tipográficos! Pido disculpas por eso de antemano.

Lo más alucinante para mí este CVPR ha sido el tamaño de la feria. Este fue, con mucho, el mayor número de empresas de visión por computadora en cualquier lugar en el que he estado. Igualmente importante, la cantidad y calidad de las demos ha aumentado drásticamente. Llevo casi una década estudiando visión artificial, y esta fue la primera vez que vi casi media docena de demos de visión que realmente funcionan, principalmente gracias al aprendizaje profundo en el frente de reconocimiento y la adopción más amplia de IMU-fusion en 3D reconstrucción / seguimiento *** frente.

En lo que respecta a los periódicos, no hubo grandes sorpresas. De hecho, estaba un poco decepcionado. La razón es simplemente que ha surgido un trabajo más nuevo en arXiv que he leído, y algunas de las cosas presentadas aquí ya son “obsoletas” o al menos mucho menos convincentes *. Para dar un ejemplo rápido, acabo de regresar del póster de “Convolutional Pose Machines” [1] (que también estaba dando una demo asesina por cierto, ¡haciendo una estimación de pose 2D en vivo de personas en tiempo real explotando 4 GPU! – y el sistema fue la demostración más sorprendente de esto que he visto). Este trabajo utiliza etapas de redes convolucionales formadas por separado. Sin embargo, el autor ya accedió a que podría hacer lo mismo con una red única más profunda utilizando el truco ResNet [2], pero que no sabían cómo entrenar esas redes profundas en el momento del envío ya que [2] no era publicado aún!

Uno de los mejores premios en papel fue para [2], que fue un discurso oral aquí, pero ya había visto ese documento presentado en el taller de ILSVRC en ICCV’15, y ya es un documento de lectura obligada para cualquiera que esté haciendo NN profundas durante seis meses. . ¡Así que tampoco hay nada nuevo!

Un papel que me gustó fue [3]. Mostraron cómo la idea detrás de estimar las orientaciones de los puntos clave como se dio originalmente en el documento SIFT es fundamentalmente defectuosa; y mostró cómo se podría usar una nueva capa en una arquitectura CNN profunda para aprender características invariantes de orientación. Mi conclusión clave aquí fue que el conocimiento del dominio todavía ayuda mucho en la era de las redes neuronales profundas y los datos abundantes, porque al incorporar una nueva capa que específicamente “razona” sobre las orientaciones de los puntos clave, pueden vencer incluso a otras redes neuronales profundas descriptor métodos de aprendizaje !! ¿Por qué esos métodos anteriores ya no aprendieron a orientar los puntos clave de manera apropiada, cuando este conocimiento obviamente estaba presente en los datos de capacitación?

Otro artículo [4] resolvió un problema en el que he querido trabajar durante dos años, pero nunca tuve el tiempo para hacerlo. ¡Sorprendentemente, no había visto este documento, aunque aparentemente ha estado en arXiv desde junio de 2015! El método detecta todos los objetos en la imagen en un solo paso hacia adelante. Básicamente trata de reducir la carga computacional de RCNN (más rápido / rápido / vainilla), fijando (y disminuyendo por órdenes de magnitud) las posiciones en las que se evaluará la presencia de un objeto. El trabajo pesado de refinar realmente la ubicación exacta del objeto, a partir de estas detecciones muy groseras, queda para los regresores de cajas delimitadoras, que han sido una característica regular del trabajo de Ross Girshick desde DPM hasta Faster RCNN. RG es uno de mis héroes entre la generación más joven de científicos de CV, y he sido fanático desde que lo escuché por primera vez en una escuela de verano en 2009. El primer autor dio una charla increíble, en línea con tener a RG como coautor. , y demostró el método en el podio girando su cámara hacia sí mismo y los objetos de juguete que había traído consigo. Demostró la diferencia significativa en la velocidad entre Faster RCNN y YOLO (eso es lo que llaman este nuevo método, 6 fps frente a 30 fps en una GPU, por un costo de precisión mínimo). Dijo que están trabajando en la binarización de la red, como se hizo en algunos documentos recientes sobre arXiv, y eso también podría permitir la detección de objetos en tiempo real en las CPU. ¡¡Realmente genial!!

Otro trabajo que encontré muy interesante fue presentado en una charla llamada “Atributos de forma 3D” [5]. Si bien recientemente leí algunos de los trabajos fantásticos de Alexey Dosovitskiy (otro tipo), donde muestra cuán profundos pueden memorizar las CNN (y, en cierta medida, generalizar) las formas 3D de los modelos CAD en 3D: este trabajo [5] realmente se encarga de hacer Asegúrese de que la red no solo esté memorizando objetos completos. Recopilan un gran conjunto de datos ** de esculturas con una variación de forma mucho mayor, y les asignan atributos 3D bastante genéricos (solo un poco ajustados a la clase de ‘escultura’), entrenan a una CNN profunda, yada yada yada. Pero luego pueden razonar sobre nuevas formas 3D a partir de imágenes individuales, explotando todo el poder de sus CNN. Todavía no he leído el periódico, pero definitivamente está en lo más alto de mi lista.

Otro artículo realiza el etiquetado semántico de enormes nubes de puntos interiores [6], a nivel de edificios enteros. Trabajé en el pasado en el laboratorio de Andrew Davison, y uno de mis colegas allí fue Thomas Whelan (inventor de sistemas como Kintinuous, que realizan ricas y densas reconstrucciones 3D de grandes ambientes interiores), y siempre me pregunté cómo uno podría hacerlos más útiles. – lo que para mí significaba un etiquetado semántico adecuado. Este trabajo hace precisamente eso. La idea que encontré más genial fue que primero analizan todo el entorno y lo dividen en ‘habitaciones’ haciendo algún tipo de correlación en los anchos de las paredes, seguido de voxelizar la habitación y usar una clasificación estándar de regiones de la habitación basada en SVM objetos. ¡Eso es lo que yo llamo una idea de inicio de visión por computadora de 100 (0) millones de dólares!

Un artículo más (en la sesión de pósters) que me entusiasmó es [7], donde el autor Bharat Singh (un estudiante de doctorado realmente brillante en el grupo de Larry Davis, actualmente en prácticas en nuestro laboratorio), presentó una forma de usar bidireccional RNN para el reconocimiento de acciones de grano fino. He estado entusiasmado con los RNN desde que leí la publicación de blog de Andrej Karpathy sobre ellos, y he dedicado mucho tiempo a estudiar y jugar con ellos, y el trabajo de traducción de idiomas que originalmente introdujo tales LSTM bidireccionales es mi favorito, pero desafortunadamente no lo he hecho. No he visto muchos ejemplos en los que se hayan aplicado con éxito a problemas de visión por computadora pura (sí, han tenido éxito para el subtitulado de imágenes y cualquier cosa que tenga que ver con el texto, pero no con problemas de reconocimiento más tradicionales). Este es probablemente el primer ejemplo de este tipo, al menos para mí.

Tengo cuatro documentos más que quiero leer, pero de los que no sé mucho. Uno es otro artículo que ganó un premio este año [8]. Se trata de reunir las brillantes maquinarias de predicción estructurada / CRF y RNN, que muchas personas han estado tratando de hacer, pero nunca lograron integrarlas correctamente, por ejemplo, algunos esfuerzos recientes de segmentación semántica. Desafortunadamente, aunque he trabajado con estas dos familias de técnicas, no pude entender la charla. La mayor parte era demasiado abstracta para mí.

El siguiente es [9], que tiene algo que ver con los modelos de atención. Me fascinan algunos ejemplos de lo que los “modelos de atención” pueden hacer en PNL, y también porque puedes pensar en las Redes de Transformadores Espaciales como una especie de modelo de atención simple. No he podido asistir a esa charla o visitar su póster, pero Fei-Fei Li tuiteó sobre este documento (es de su grupo, y así es como llegué a saberlo), y todos los documentos de ese grupo valen la pena leer, así que también puse este papel en mi montón.

Otro es [11], que fue descrito por Deva Ramanan en una charla de taller que dio. Clasifica las tareas de visión en “visión de un vistazo” y “visión por inspección visual”: las primeras son procesadas por el sistema visual humano en un solo paso hacia adelante (por ejemplo, identificando que hay una pizza en la imagen), la segunda requiere un razonamiento más profundo (por ejemplo, contando el número de rebanadas en la pizza). Para este último, propone un modelo generativo profundo que puede hacer de forma iterativa un razonamiento detallado, ejemplificado por la aplicación a la estimación de la postura del cuerpo humano en el documento. De hecho, Jitendra Malik también dio una charla sobre la incorporación de mecanismos de retroalimentación en las tareas de procesamiento visual en el mismo taller. Si bien reconozco que la retroalimentación podría ser cómo se hacen estas cosas en el cerebro, no estoy de acuerdo en que esa sea la forma de hacerlo en las máquinas. Para los humanos, el poder de procesamiento (neuronas visuales o lo que sea) es limitado y, por lo tanto, para un procesamiento reflexivo necesitamos pensar profundamente (llamémoslo retroalimentación iterativa), pero para las máquinas, podemos construir redes cada vez más profundas y entrenar con mayores cantidades de ( posiblemente sintético) datos! Aún así [11] sonaba como si tuviera una arquitectura elegante (no CNN ordinarias), ¡así que tendré una mirada “más profunda”!

El artículo final en mi lista [10] probablemente no sea de gran interés, pero es relevante para un proyecto de visión centrado en el ego que hice para mi tesis de maestría, y potencialmente también relevante para ADAS, al predecir el futuro en las carreteras.

Aparte de estos, las charlas plenarias de Amnon Shashua y Nick Bostrom fueron absolutamente fantásticas (¡lamentablemente me perdí la tercera charla plenaria, maldita sea!), Y cualquiera que lea esto debería revisar estas conversaciones tan pronto como los videos estén disponibles públicamente en videolectures. red. Lo nuevo de lo que habló Amnon Shashua fue estimar el número y los tipos de carriles, y mencionó que tienen 800 anotadores para etiquetar sus datos de entrenamiento (hay muchas otras charlas recientes suyas, que no entran en tantos detalles en el youtube de MobilEye canal). Nick Bostrom básicamente resumió su libro (que he leído, y me pareció fantástico). Jitendra Malik hizo algunos argumentos estándar en contra de la charla en la sesión de preguntas y respuestas después de la charla, que el profesor Bostrom defendió muy bien, precisamente los pensamientos que tengo, cuando leo las críticas a su libro por parte de muchos otros líderes de nuestro campo.

Supongo que eso es todo. ¡Feliz lectura!

[1] [1602.00134] Máquinas de pose convolucional

[2] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes

[3] [1511.04273] Aprendiendo a asignar orientaciones a puntos de características

[4] Detección unificada de objetos en tiempo real

[5] http://www.cs.cmu.edu/~dfouhey/s…

[6] http://cvgl.stanford.edu/papers/…

[7] http://www.cs.umd.edu/~bharat/cv…

[8] Aprendizaje profundo en gráficos espacio-temporales

[9] [1511.02917] Detectando eventos y actores clave en videos de varias personas

[10] http://www.seas.upenn.edu/~hypar…

[11] https://arxiv.org/pdf/1507.05699…

* En este contexto, me pregunto cuál es el futuro de tales conferencias. ¿Se convertirán en exposiciones industriales, en lugar de conferencias académicas? Al menos para los introvertidos como yo, a quienes les resulta difícil acercarse a extraños y hablar con ellos, ¡pronto no habrá mucho que hacer en esos lugares!

** Por cierto, se produjo una explosión en el conjunto de datos en el CVPR de este año, con casi todos los otros periódicos introduciendo su propio conjunto de datos, lo que no es del todo sorprendente dado que las CNN profundas requieren toneladas de datos, y la mayoría de los documentos ahora usan CNN profundas. ¿Esta abundancia de conjuntos de datos visuales atraerá a más y más estudiantes de máquina pura hacia la visión?

*** Editar: Acabo de recibir mi turno para la demostración de Microsoft Hololens, que fue bastante genial. El seguimiento allí es sólido como una roca. Sin embargo, no me gustó que la pantalla se limite a una pequeña región de mi campo visual completo. ¡Esto hace que algunas de las visualizaciones sean truncadas por el límite de visualización! La interfaz de usuario: el uso de gestos con las manos y el seguimiento de la ubicación de los dedos tampoco es robusto en este momento, aparte de ser agotador. Sin embargo, no piense que esto significa que la tecnología no es sorprendente. Todavía no está completamente allí, pero estoy seguro de que es el futuro de la informática, y mucha gente hará cola para comprarla dentro de uno o dos años.

¿Cuáles son los roles de probabilidad y estadística en el aprendizaje automático? ¿Qué tan importantes son? ¿Cuáles son sus aplicaciones en el aprendizaje automático?

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

¿Por qué la red bayesiana no ha tenido tanto éxito como la red neuronal profunda?

¿Cuál es la relación entre la teoría de la Gestalt y el aprendizaje profundo?

¿Sería posible leer mentes usando una máquina?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¡Buena pregunta! Trataré de responder golpeando los papeles en temas. Los documentos probablemente estarán sesgados hacia áreas que me interesan (reconocimiento, coincidencia, uso de datos sintéticos, robótica). No asistí a la conferencia, por lo que seguramente me habré perdido algunos documentos interesantes cuyo título / resumen no encontré lo suficientemente “pegadizo”. Me he dado cuenta de que muchos de estos son diferentes de los que Zeeshan Zia ha mencionado, así que espero que eso le brinde una muestra más extensa de los procedimientos. Aquí va:

Formas inteligentes de supervisar el algoritmo de aprendizaje: esto cubre el uso de datos sintéticos y formas novedosas de encontrar supervisión débil a partir de datos abundantemente disponibles que se anotan en otro espacio (generalmente mucho más simple) que la salida del algoritmo.

Aprendizaje de la correspondencia densa a través de la consistencia del ciclo guiada en 3D [1] : aprenden a corresponder puntos en un objeto representado desde dos puntos de vista diferentes. Dado que los datos de entrenamiento anotados directamente para esta tarea son muy caros, primero encuentran un modelo 3D que corresponde a las dos imágenes y lo muestran en los dos puntos de vista. La supervisión para ajustar la red de predicción de flujo proviene del hecho de que el flujo (representación 1 -> imagen 1) + flujo (imagen 1 -> imagen 2) + flujo (imagen 2 -> representación 2) debe ser igual al flujo (representación 1 -> representación 2), que se conoce con gran precisión por el motor de representación. La red se inicializa B, lo que hace que imite la salida de SiftFlow entre pares de imágenes del mismo objeto en diferentes puntos de vista.
Aprendiendo con información paralela a través de la alucinación de modalidad [2] : este es un trabajo REALMENTE FRESCO, y creo que la idea es muy creativa. Se trata de mejorar la detección de objetos RGB mediante el uso de una combinación de RGB normal y características alucinadas. Las características alucinadas están obligadas a ser como las características que una red hubiera creado, si su entrada fuera una modalidad diferente, por ejemplo , profundidad. Las características alucinadas para la modalidad de profundidad se entrenan utilizando un pequeño conjunto de datos que tiene RGB y profundidad (NYUv2). Se muestra que la combinación de características supera a las características RGB no solo en el conjunto de datos NYUv2, sino también en un conjunto de datos para el que no hay información de profundidad disponible, Pascal VOC 2007. Además, el documento también está muy bien escrito y proporciona una buena plantilla para escribiendo un documento de visión.
No necesitamos cuadros delimitadores: Capacitación de detectores de clase de objeto utilizando solo verificación humana [3] : Este documento muestra cómo iterar entre volver a entrenar el detector, reubicar objetos en las imágenes de entrenamiento y la verificación humana puede conducir a una comparación comparable detectores de objetos y localizadores, con un esfuerzo de anotación significativamente menor.
Comprensión de la escena newtoniana: despliegue de la dinámica de los objetos en imágenes estáticas [4]: abordan el problema de predecir el movimiento y la fuerza de un objeto específico en una sola imagen RGB. Es bastante inteligente cómo pueden aprovechar los datos de entrenamiento en forma de videos de objetos que se mueven en un motor de renderizado basado en la física (que ellos llaman escenario newtoniano). Su red puede asociar una imagen RGB dada con el paso de tiempo correcto en uno de los 12 escenarios newtonianos. Dada esta asociación, toman la física del escenario newtoniano y predicen el movimiento y las fuerzas en la imagen RGB. ¡Muy genial!
[8] : Consulte la sección “Nuevos problemas geniales” para obtener una descripción de cómo obtienen muchos datos de seguimiento ocular etiquetados de alta calidad con solo una aplicación de teléfono celular.

Detección de objetos: el problema de la visión siempre verde que no necesita presentación.

Capacitación de detectores de objetos basados en regiones con minería de ejemplos en línea [5] : Esta es una extensión simple pero poderosa del detector de objetos Fast R-CNN, que resuelve el problema de componer el minibatch de ROI para la actualización de SGD. Esencialmente, adelantan todas las ROI (lo que no es tan malo como parece, porque gran parte del cálculo se comparte en forma de cálculo del mapa de características conv), y luego eligen las mejores ROI de k según la pérdida. Esto es bueno, porque si una imagen tiene una instancia de objeto súper fácil, la red se puede actualizar usando solo negativos negativos en esa iteración.
Aprendizaje residual profundo para el reconocimiento de objetos [6] : ¡No creo que necesite describir este artículo!

Nuevos problemas : redes profundas, grandes conjuntos de datos y formas inteligentes de utilizar datos sintéticos que están completamente etiquetados por la construcción y, por supuesto, la creatividad, ¡todo esto ha permitido a los investigadores abordar algunos problemas nuevos y emocionantes!

Mapas de acción de aprendizaje de grandes entornos a través de la visión en primera persona [7] : utilizan demostraciones de actividad de video centrado en el ego para hacer ‘mapas de acción’ de espacios interiores, mapas que nos dicen dónde es probable que se realicen ciertas actividades.
Seguimiento ocular para todos [8] : Este documento ha recibido publicidad recientemente: abordan el problema familiar del seguimiento ocular, pero utilizando solo un teléfono celular. Su método de recopilación de datos es bastante novedoso: muestran un punto al azar en la pantalla, que después de un tiempo se convierte en una R o una L, lo que indica que el usuario debe tocar la mitad izquierda o derecha de la pantalla. Esto actúa como un paso de verificación de que el ojo del usuario está enfocado en el punto. Mientras tanto, la cámara frontal está tomando fotos de la cara del usuario, ¡generando muchos datos de entrenamiento etiquetados de alta calidad!
[4] : Consulte la sección “Formas inteligentes de supervisar el algoritmo de aprendizaje” para obtener una descripción del documento sobre la predicción del movimiento y la fuerza que actúa sobre un objeto en una sola imagen RGB.

Conjuntos de datos

Análisis semántico 3D de espacios interiores a gran escala [9] : lanzan un conjunto de datos que consiste en la reconstrucción 3D fotorrealista de 6 espacios interiores grandes. Las etiquetas incluyen la segmentación en habitaciones y cuadros delimitadores 3D para 12 categorías de objetos diferentes.
El conjunto de datos de paisajes urbanos para la comprensión de la escena urbana semántica [10] : Este es un gran conjunto de datos al aire libre para la comprensión de la escena semántica. Las etiquetas incluyen etiquetas de instancia de nivel de píxel para objetos y etiquetas de nivel de píxel para ‘cosas’: cielo, carretera, construcción, etc.
[8] : Ponen a disposición del público sus datos de seguimiento ocular en Eye Tracking for Everyone (consulte la sección ‘Nuevos problemas interesantes)
[4] : Vea la sección sobre ‘Formas inteligentes de supervisar el algoritmo de aprendizaje’: hacen que su conjunto de datos de escenarios newtonianos y la imagen RGB asociada estén disponibles públicamente en Despliegue de la dinámica de objetos en imágenes estáticas.

Referencias y enlaces:

[1604.05383] Aprendizaje de correspondencia densa a través de la consistencia del ciclo guiada por 3D
Aprendizaje con información secundaria a través de la alucinación de modalidades
Capacitación de detectores de clase de objeto utilizando solo verificación humana
Comprensión de la imagen newtoniana: despliegue de la dinámica de los objetos en imágenes estáticas
[1604.03540] Capacitación de detectores de objetos basados en regiones con minería de ejemplos en línea
[1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes
[1605.01679] Mapas de acción de aprendizaje de entornos grandes a través de la visión en primera persona
[1606.05814] Seguimiento ocular para todos
Análisis semántico 3D de espacios interiores a gran escala
El conjunto de datos de paisajes urbanos para la comprensión de la escena urbana semántica