Entonces, ahora que CVPR 2016 está llegando a su fin (conferencia principal, en un par de horas más), iba a anotar mis impresiones por mí mismo, mientras todavía estaban frescas, pero luego vi esta pregunta y pensé por qué no grabarlas en Quora en su lugar.
Sin embargo, descargo de responsabilidad: ¡la siguiente respuesta probablemente no sea 100% relevante para la pregunta formulada! En realidad, no he leído algunos de los documentos mencionados a continuación, pero están en mi lista. Además, estoy trabajando en una presentación para una fecha límite cercana, ¡así que no podré ocuparme de la gramática y los errores tipográficos! Pido disculpas por eso de antemano.
Lo más alucinante para mí este CVPR ha sido el tamaño de la feria. Este fue, con mucho, el mayor número de empresas de visión por computadora en cualquier lugar en el que he estado. Igualmente importante, la cantidad y calidad de las demos ha aumentado drásticamente. Llevo casi una década estudiando visión artificial, y esta fue la primera vez que vi casi media docena de demos de visión que realmente funcionan, principalmente gracias al aprendizaje profundo en el frente de reconocimiento y la adopción más amplia de IMU-fusion en 3D reconstrucción / seguimiento *** frente.
- Cómo obtener una pasantía de investigación del profesor en la NYU en proyectos que necesitan experiencia en minería de datos o aprendizaje automático
- ¿Cómo aprendiste el aprendizaje automático? ¿Por qué?
- ¿Cuáles son las mejores herramientas para la minería de datos en Internet? ¿Qué debo usar para configurar un evento automático / alerta de tendencia?
- Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?
- ¿Cómo puede alguien que es muy débil en matemáticas aprender el aprendizaje automático y el aprendizaje profundo?
En lo que respecta a los periódicos, no hubo grandes sorpresas. De hecho, estaba un poco decepcionado. La razón es simplemente que ha surgido un trabajo más nuevo en arXiv que he leído, y algunas de las cosas presentadas aquí ya son “obsoletas” o al menos mucho menos convincentes *. Para dar un ejemplo rápido, acabo de regresar del póster de “Convolutional Pose Machines” [1] (que también estaba dando una demo asesina por cierto, ¡haciendo una estimación de pose 2D en vivo de personas en tiempo real explotando 4 GPU! – y el sistema fue la demostración más sorprendente de esto que he visto). Este trabajo utiliza etapas de redes convolucionales formadas por separado. Sin embargo, el autor ya accedió a que podría hacer lo mismo con una red única más profunda utilizando el truco ResNet [2], pero que no sabían cómo entrenar esas redes profundas en el momento del envío ya que [2] no era publicado aún!
Uno de los mejores premios en papel fue para [2], que fue un discurso oral aquí, pero ya había visto ese documento presentado en el taller de ILSVRC en ICCV’15, y ya es un documento de lectura obligada para cualquiera que esté haciendo NN profundas durante seis meses. . ¡Así que tampoco hay nada nuevo!
Un papel que me gustó fue [3]. Mostraron cómo la idea detrás de estimar las orientaciones de los puntos clave como se dio originalmente en el documento SIFT es fundamentalmente defectuosa; y mostró cómo se podría usar una nueva capa en una arquitectura CNN profunda para aprender características invariantes de orientación. Mi conclusión clave aquí fue que el conocimiento del dominio todavía ayuda mucho en la era de las redes neuronales profundas y los datos abundantes, porque al incorporar una nueva capa que específicamente “razona” sobre las orientaciones de los puntos clave, pueden vencer incluso a otras redes neuronales profundas descriptor métodos de aprendizaje !! ¿Por qué esos métodos anteriores ya no aprendieron a orientar los puntos clave de manera apropiada, cuando este conocimiento obviamente estaba presente en los datos de capacitación?
Otro artículo [4] resolvió un problema en el que he querido trabajar durante dos años, pero nunca tuve el tiempo para hacerlo. ¡Sorprendentemente, no había visto este documento, aunque aparentemente ha estado en arXiv desde junio de 2015! El método detecta todos los objetos en la imagen en un solo paso hacia adelante. Básicamente trata de reducir la carga computacional de RCNN (más rápido / rápido / vainilla), fijando (y disminuyendo por órdenes de magnitud) las posiciones en las que se evaluará la presencia de un objeto. El trabajo pesado de refinar realmente la ubicación exacta del objeto, a partir de estas detecciones muy groseras, queda para los regresores de cajas delimitadoras, que han sido una característica regular del trabajo de Ross Girshick desde DPM hasta Faster RCNN. RG es uno de mis héroes entre la generación más joven de científicos de CV, y he sido fanático desde que lo escuché por primera vez en una escuela de verano en 2009. El primer autor dio una charla increíble, en línea con tener a RG como coautor. , y demostró el método en el podio girando su cámara hacia sí mismo y los objetos de juguete que había traído consigo. Demostró la diferencia significativa en la velocidad entre Faster RCNN y YOLO (eso es lo que llaman este nuevo método, 6 fps frente a 30 fps en una GPU, por un costo de precisión mínimo). Dijo que están trabajando en la binarización de la red, como se hizo en algunos documentos recientes sobre arXiv, y eso también podría permitir la detección de objetos en tiempo real en las CPU. ¡¡Realmente genial!!
Otro trabajo que encontré muy interesante fue presentado en una charla llamada “Atributos de forma 3D” [5]. Si bien recientemente leí algunos de los trabajos fantásticos de Alexey Dosovitskiy (otro tipo), donde muestra cuán profundos pueden memorizar las CNN (y, en cierta medida, generalizar) las formas 3D de los modelos CAD en 3D: este trabajo [5] realmente se encarga de hacer Asegúrese de que la red no solo esté memorizando objetos completos. Recopilan un gran conjunto de datos ** de esculturas con una variación de forma mucho mayor, y les asignan atributos 3D bastante genéricos (solo un poco ajustados a la clase de ‘escultura’), entrenan a una CNN profunda, yada yada yada. Pero luego pueden razonar sobre nuevas formas 3D a partir de imágenes individuales, explotando todo el poder de sus CNN. Todavía no he leído el periódico, pero definitivamente está en lo más alto de mi lista.
Otro artículo realiza el etiquetado semántico de enormes nubes de puntos interiores [6], a nivel de edificios enteros. Trabajé en el pasado en el laboratorio de Andrew Davison, y uno de mis colegas allí fue Thomas Whelan (inventor de sistemas como Kintinuous, que realizan ricas y densas reconstrucciones 3D de grandes ambientes interiores), y siempre me pregunté cómo uno podría hacerlos más útiles. – lo que para mí significaba un etiquetado semántico adecuado. Este trabajo hace precisamente eso. La idea que encontré más genial fue que primero analizan todo el entorno y lo dividen en ‘habitaciones’ haciendo algún tipo de correlación en los anchos de las paredes, seguido de voxelizar la habitación y usar una clasificación estándar de regiones de la habitación basada en SVM objetos. ¡Eso es lo que yo llamo una idea de inicio de visión por computadora de 100 (0) millones de dólares!
Un artículo más (en la sesión de pósters) que me entusiasmó es [7], donde el autor Bharat Singh (un estudiante de doctorado realmente brillante en el grupo de Larry Davis, actualmente en prácticas en nuestro laboratorio), presentó una forma de usar bidireccional RNN para el reconocimiento de acciones de grano fino. He estado entusiasmado con los RNN desde que leí la publicación de blog de Andrej Karpathy sobre ellos, y he dedicado mucho tiempo a estudiar y jugar con ellos, y el trabajo de traducción de idiomas que originalmente introdujo tales LSTM bidireccionales es mi favorito, pero desafortunadamente no lo he hecho. No he visto muchos ejemplos en los que se hayan aplicado con éxito a problemas de visión por computadora pura (sí, han tenido éxito para el subtitulado de imágenes y cualquier cosa que tenga que ver con el texto, pero no con problemas de reconocimiento más tradicionales). Este es probablemente el primer ejemplo de este tipo, al menos para mí.
Tengo cuatro documentos más que quiero leer, pero de los que no sé mucho. Uno es otro artículo que ganó un premio este año [8]. Se trata de reunir las brillantes maquinarias de predicción estructurada / CRF y RNN, que muchas personas han estado tratando de hacer, pero nunca lograron integrarlas correctamente, por ejemplo, algunos esfuerzos recientes de segmentación semántica. Desafortunadamente, aunque he trabajado con estas dos familias de técnicas, no pude entender la charla. La mayor parte era demasiado abstracta para mí.
El siguiente es [9], que tiene algo que ver con los modelos de atención. Me fascinan algunos ejemplos de lo que los “modelos de atención” pueden hacer en PNL, y también porque puedes pensar en las Redes de Transformadores Espaciales como una especie de modelo de atención simple. No he podido asistir a esa charla o visitar su póster, pero Fei-Fei Li tuiteó sobre este documento (es de su grupo, y así es como llegué a saberlo), y todos los documentos de ese grupo valen la pena leer, así que también puse este papel en mi montón.
Otro es [11], que fue descrito por Deva Ramanan en una charla de taller que dio. Clasifica las tareas de visión en “visión de un vistazo” y “visión por inspección visual”: las primeras son procesadas por el sistema visual humano en un solo paso hacia adelante (por ejemplo, identificando que hay una pizza en la imagen), la segunda requiere un razonamiento más profundo (por ejemplo, contando el número de rebanadas en la pizza). Para este último, propone un modelo generativo profundo que puede hacer de forma iterativa un razonamiento detallado, ejemplificado por la aplicación a la estimación de la postura del cuerpo humano en el documento. De hecho, Jitendra Malik también dio una charla sobre la incorporación de mecanismos de retroalimentación en las tareas de procesamiento visual en el mismo taller. Si bien reconozco que la retroalimentación podría ser cómo se hacen estas cosas en el cerebro, no estoy de acuerdo en que esa sea la forma de hacerlo en las máquinas. Para los humanos, el poder de procesamiento (neuronas visuales o lo que sea) es limitado y, por lo tanto, para un procesamiento reflexivo necesitamos pensar profundamente (llamémoslo retroalimentación iterativa), pero para las máquinas, podemos construir redes cada vez más profundas y entrenar con mayores cantidades de ( posiblemente sintético) datos! Aún así [11] sonaba como si tuviera una arquitectura elegante (no CNN ordinarias), ¡así que tendré una mirada “más profunda”!
El artículo final en mi lista [10] probablemente no sea de gran interés, pero es relevante para un proyecto de visión centrado en el ego que hice para mi tesis de maestría, y potencialmente también relevante para ADAS, al predecir el futuro en las carreteras.
Aparte de estos, las charlas plenarias de Amnon Shashua y Nick Bostrom fueron absolutamente fantásticas (¡lamentablemente me perdí la tercera charla plenaria, maldita sea!), Y cualquiera que lea esto debería revisar estas conversaciones tan pronto como los videos estén disponibles públicamente en videolectures. red. Lo nuevo de lo que habló Amnon Shashua fue estimar el número y los tipos de carriles, y mencionó que tienen 800 anotadores para etiquetar sus datos de entrenamiento (hay muchas otras charlas recientes suyas, que no entran en tantos detalles en el youtube de MobilEye canal). Nick Bostrom básicamente resumió su libro (que he leído, y me pareció fantástico). Jitendra Malik hizo algunos argumentos estándar en contra de la charla en la sesión de preguntas y respuestas después de la charla, que el profesor Bostrom defendió muy bien, precisamente los pensamientos que tengo, cuando leo las críticas a su libro por parte de muchos otros líderes de nuestro campo.
Supongo que eso es todo. ¡Feliz lectura!
[1] [1602.00134] Máquinas de pose convolucional
[2] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes
[3] [1511.04273] Aprendiendo a asignar orientaciones a puntos de características
[4] Detección unificada de objetos en tiempo real
[5] http://www.cs.cmu.edu/~dfouhey/s…
[6] http://cvgl.stanford.edu/papers/…
[7] http://www.cs.umd.edu/~bharat/cv…
[8] Aprendizaje profundo en gráficos espacio-temporales
[9] [1511.02917] Detectando eventos y actores clave en videos de varias personas
[10] http://www.seas.upenn.edu/~hypar…
[11] https://arxiv.org/pdf/1507.05699…
* En este contexto, me pregunto cuál es el futuro de tales conferencias. ¿Se convertirán en exposiciones industriales, en lugar de conferencias académicas? Al menos para los introvertidos como yo, a quienes les resulta difícil acercarse a extraños y hablar con ellos, ¡pronto no habrá mucho que hacer en esos lugares!
** Por cierto, se produjo una explosión en el conjunto de datos en el CVPR de este año, con casi todos los otros periódicos introduciendo su propio conjunto de datos, lo que no es del todo sorprendente dado que las CNN profundas requieren toneladas de datos, y la mayoría de los documentos ahora usan CNN profundas. ¿Esta abundancia de conjuntos de datos visuales atraerá a más y más estudiantes de máquina pura hacia la visión?
*** Editar: Acabo de recibir mi turno para la demostración de Microsoft Hololens, que fue bastante genial. El seguimiento allí es sólido como una roca. Sin embargo, no me gustó que la pantalla se limite a una pequeña región de mi campo visual completo. ¡Esto hace que algunas de las visualizaciones sean truncadas por el límite de visualización! La interfaz de usuario: el uso de gestos con las manos y el seguimiento de la ubicación de los dedos tampoco es robusto en este momento, aparte de ser agotador. Sin embargo, no piense que esto significa que la tecnología no es sorprendente. Todavía no está completamente allí, pero estoy seguro de que es el futuro de la informática, y mucha gente hará cola para comprarla dentro de uno o dos años.