¿Es posible aplicar la localización de objetos sin tener regiones de caja en la verdad básica?

La segmentación de imágenes es un área activa de investigación en visión artificial. Estos enfoques se pueden clasificar en términos generales como: – modelos de nivel de objeto y nivel de píxel. El nivel de objeto modela la segmentación como un problema regresivo y requiere que proporcione cuadros delimitadores como anotaciones para las imágenes de entrada. La segmentación a nivel de objeto ha sido más popular de las 2 variantes debido a la velocidad de procesamiento más rápida derivada de la facilidad computacional. Además, tienden a tener un mejor mAP debido a la relativa facilidad de formulación del problema. Algunas variantes populares recientes son máscara: RCNN, YOLO, SSD

En situaciones donde no tiene la intención de proporcionar coordenadas de nivel de objeto, podría modelarlo como un problema de clasificación. Aquí, no necesitará proporcionar coordenadas regresivas para los cuadros delimitadores. Sin embargo, tendrá que utilizar un enfoque de clasificación de nivel de píxeles. Estos usan comúnmente codificadores automáticos y Segnet es una de las variantes más populares.

En el segundo tipo, debe proporcionar una clasificación de nivel de píxeles en la imagen en lugar de las coordenadas regresivas del cuadro delimitador.

Así es como podría interpretar tu problema.

Ahora, si detecta coordenadas para un objeto sin anotarlo en la imagen de entrada, la pregunta parece abstracta, entonces podría realizar un procedimiento de clasificación pero no un procedimiento de detección. Es decir, puede detectar la presencia de un objeto pero no localizarlo.

Lo que das es lo que obtienes. Si entrena un modelo para optimizar su aspecto clasificando los objetos presentes en una imagen, no puede esperar que localice el objeto en el momento de la prueba.

Espero eso ayude.

Sí, quien dijo que las regiones tienen que ser solo cajas, también pueden ser máscaras de segmentación. Tal como se usa en las redes neuronales convolucionales de la región de máscara (máscara R-CNN [1]). Básicamente, el sistema tiene que aprender la agrupación por nivel de píxel para cada objeto, esto se llama segmentación de instancia de objeto, que es solo una forma de segmentación semántica o agrupación.

También es posible localizar objetos articulados como la recuperación de la pose humana de esta manera. De hecho, el mismo trabajo de máscara R-CNN mostró que es posible recuperar la postura humana usando la misma red de máscara R-CNN.

Por lo tanto, la verdad básica no se limita a un cuadro delimitador 2D, es solo que la mayoría de los conjuntos de datos usan cuadros de verdad básica 2D porque son mucho más fáciles de manejar. En el sentido real, también es posible usar máscaras de segmentación o poses 3D de los objetos como la verdad fundamental.

El uso de mapas de características para la localización ha existido desde el documento Faster R-CNN. La red de propuesta de región (RPN) en realidad se desliza sobre un mapa de características de conv de alto nivel para hacer retroceder los cuadros delimitadores 2D. La máscara R-CNN solo extiende eso al alimentarse también desde el mapa de características de conv de alto nivel para localizar objetos por segmentación de instancia de objeto.

Espero que esto ayude.

Notas al pie

[1] [1703.06870] Máscara R-CNN

Creo que lo que estás preguntando es por qué la red no puede saber dónde está el objeto sin una guía explícita. Después de todo, si la red no ha clasificado la imagen como un gato, entonces debería poder encontrar dónde está el gato, ¿verdad?

Mas o menos.

Le sugiero que consulte el excelente artículo de Bottou and co sobre esto: ¿Es el reconocimiento de objetos gratis?

Esencialmente, tienen una capa de agrupación máxima global que intenta identificar la región en la que se encuentra el objeto.

More Interesting

¿Cuáles son algunos de los grandes usos de Google TensorFlow?

¿Qué tipos de trabajos están disponibles en la industria financiera para un máster en ML / AI graduado?

¿Cuál es el método del núcleo? ¿Cómo se usa en los sistemas de recomendación?

¿Pueden los métodos de aprendizaje profundo ser útiles para el seguimiento de múltiples objetos en una multitud?

¿Cuáles son los pasos necesarios para el análisis de sentimientos de las redes sociales?

¿Cuál es el número mínimo de árboles que debo usar en un bosque aleatorio?

¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?

¿Por qué una gran proporción de los nuevos estudiantes de CS optan por especializarse en áreas más nuevas como el aprendizaje automático, la informática social y la informática móvil en lugar de las más antiguas como los sistemas, la arquitectura y las redes?

Desde la perspectiva de la ciencia de datos, ¿qué salió mal al predecir las elecciones presidenciales de 2016 en los Estados Unidos?

¿Cómo utiliza Facebook feed el aprendizaje profundo?

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

¿La IA tradicional se está volviendo obsoleta a la luz del progreso en el aprendizaje profundo?

¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?

Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?