¿Se mejorará la mayor ganancia en el reconocimiento de objetos en los algoritmos de representación y aprendizaje, en lugar de modelos simples y datos más grandes?

En primer lugar, me encantaría recordarle el concepto de rendimientos decrecientes, simplemente aumentar el conjunto de datos no reducirá las tasas de error de reconocimiento de objetos. Es cierto que aumentar el tamaño de los datos de entrenamiento mejorará el rendimiento de reconocimiento, esto se debe a que los modelos de aprendizaje actuales son más parecidos a las curvas en matemáticas.

Cuantos más datos estén disponibles, mejor se ajustará la curva, eso es todo. En algún momento, la curva no se ajustará mejor, por lo tanto, los rendimientos disminuirán. Pero hay más en el reconocimiento de objetos que el ajuste de curvas o los incrementos de tamaño del conjunto de datos. Es absolutamente necesario desarrollar sistemas complejos de reconocimiento de objetos para un mejor rendimiento porque.

  • Los objetos sufren transformaciones : por ejemplo, un automóvil visto desde ángulos oscuros o una cara en una pose peculiar. Se puede implementar un algoritmo de detección que debería detectar rostros en todas las poses posibles mediante la recolección de muestras de rostros en todas las condiciones de visualización posibles. Pero esto es engorroso, un mejor enfoque es modelar algunas caras de entrenamiento en 3D. El reconocimiento de objetos invariantes de transformación no necesita ser aprendido, debe estar codificado o conectado al sistema de reconocimiento.
  • El reconocimiento es un problema de abajo hacia arriba / de arriba hacia abajo : el proceso de reconocimiento de objetos es complejo y comienza con un rápido proceso de reconocimiento de abajo hacia arriba aproximado utilizando visión periférica. Luego sigue un proceso de reconocimiento descendente más lento utilizando la visión foveal. Esto no es algo que se pueda aprender de los datos de capacitación, debe implementarse y cablearse cuidadosamente o codificarse en el sistema de antemano.
  • El conocimiento / las características deben compartirse : el concepto de transferencia / intercambio de conocimiento también es algo que es difícil de obtener solo del aprendizaje y se implementa libremente en las canalizaciones de reconocimiento de objetos actuales. La transferencia de conocimientos / funciones ayuda a acelerar el aprendizaje en futuros intentos.
  • El reconocimiento de objetos necesita información de contexto : la precisión del reconocimiento puede mejorarse dramáticamente teniendo en cuenta el contexto. Y nuevamente, esto es algo que debe codificarse en la tubería de reconocimiento.
  • El reconocimiento de objetos utiliza la discriminación figura-fondo : la mente humana también tiene ciertas reglas generales sobre qué es una figura y qué antecedentes, aprender esas reglas de los datos de entrenamiento puede ser una tarea desalentadora.

La implementación cuidadosa de los puntos anteriores da como resultado un sistema de reconocimiento más sofisticado, pero puede mejorar drásticamente la precisión del reconocimiento o reducir las tasas de error. Por lo tanto, los algoritmos de representación y aprendizaje mejorados proporcionarán la mayor ganancia en el reconocimiento de objetos.

Un modelo simple ampliado no hará frente simplemente a la complejidad de las variaciones de objetos del mundo real. La comparación exhaustiva con una base de datos de millones de ejemplares no es suficiente, el mundo real es demasiado complejo.

Espero que esto ayude 🙂

Mi creencia y la mentalidad actual de los investigadores prometen representaciones más concisas pero significativas de un menor número de casos. El aprendizaje automático convencional solo se compara con el cerebro humano (aunque tampoco lo desenredamos por completo). Por supuesto, como somos humanos, podemos aprender cualquier concepto visual o verbal con pocos ejemplos. Entonces parece, para hacer sistemas más comparables, necesitamos utilizar datos pequeños con representaciones ricas.

Las imágenes fijas no son suficientes, tiempo para videos. Se sospecha que la capacidad visual humana es un marco continuo de lo que vemos. Luego, si vemos un automóvil, podemos verlo en diferentes condiciones en un par de segundos (puntos de vista, iluminación, etc.) Como resultado de esto, lo encadenamos al cerebro invariante a cualquiera de los cambios en el estado actual de los sistemas susceptible. Los datos de video juegan un papel importante para imitar el mismo comportamiento en nuestros algoritmos.

La discriminación purificada no es suficiente. Los algoritmos de última generación utilizan enfoques puramente discriminantes y su insuficiencia ya está probada con una variedad de trabajos como “Instancias adversarias”. Creo que el cerebro usa las habilidades generativas como fuente de su poder discriminante. Estos modelos no saben generalizar, pero el cerebro sí. Esto está en mente, debemos investigar más los modelos generativos e incorporarlos para tareas discriminantes.

Compartir representaciones es también el hecho del aprendizaje humano. Tenemos un solo cerebro que se ensambla en diferentes regiones que cooperan entre sí para una variedad de tareas. Esto también es aplicable a nuestros problemas. Aprenda una representación agnóstica y especialícela con diferentes complementos. Esto también nos permite combinar diferentes entradas como datos visuales y auditivos para tareas particulares.