¿Qué tan bien las redes neuronales reconocen imágenes incompletas (por ejemplo, una manzana que está parcialmente cortada)?

Depende de:

(i) ¿cuántos ejemplos ocluidos / truncados ha visto la red durante el entrenamiento?

Si el conjunto de entrenamiento incluye muchos ejemplos de este tipo, y hay poca o ninguna similitud con otras clases de objetos en apariencia, hay una buena probabilidad de que sea reconocible. Si el conjunto de entrenamiento no incluye ningún ejemplo ocluido / truncado, las posibilidades son más escasas.

(ii) ¿cuánto está realmente ocluida / truncada su imagen de prueba (10%, 50%, 95%)?

Si la instancia de prueba está muy poco ocluida, hay una mayor posibilidad de detección, simplemente porque el parche de la imagen dará una respuesta similar a las circunvoluciones con los filtros relevantes en la CNN, como un objeto totalmente visible. No es sorprendente que si el objeto es muy poco visible será mucho más difícil reconocerlo, lo mismo que un observador humano.

(iii) la ubicación de la oclusión / truncamiento

Por ejemplo, si el truncamiento se encuentra en la región más distintiva del objeto, por ejemplo, el tallo de la manzana, entonces hay pocas esperanzas de un reconocimiento correcto, porque la manzana podría parecer un círculo genérico.

Para comprender cómo funciona esto, debe comprender cómo funciona una red neuronal convolucional (CNN) y la noción de representaciones distribuidas.

Comenzaré con representaciones distribuidas.

Esto significa que la noción de que una entrada pertenece a una clase, (la imagen es de una manzana) no se encuentra localmente en ninguna parte de la red. En cambio, se encuentra en partes y piezas (sin juego de palabras) en toda la red y la red en su conjunto identifica la manzana. No se puede señalar una neurona o un conjunto de neuronas y decir: “Esta fue la parte responsable de detectar una manzana”. Todas las neuronas contribuyen, algunas más que la otra.

Ahora que hemos terminado con eso. Echemos un vistazo a cómo funcionan las CNN.

Me gustaría pensar que un operador de convolución reduce una imagen a una dimensión más pequeña. Hay una ventana deslizante con filtros que se desliza por la imagen. Esto constituye una capa en la CNN y varias capas con otras operaciones como Agrupación máxima, Agrupación promedio, Unidades lineales rectificadas (ReLU) forman una CNN completa.

Puede leer más sobre las CNN en: CS231n Redes neuronales convolucionales para el reconocimiento visual

Las primeras capas de una CNN identifican pequeñas características como los bordes. Las formas intermedias y las cercanas a la salida, formas más complejas. Ahora, traiga la noción de representaciones distribuidas. El conocimiento de la forma se extiende a través de las neuronas en varias capas. Se podría decir que una parte de la forma es detectada por alguna neurona. Así es como las Redes Neurales son capaces de identificar partes de una imagen, porque la información de la forma está en partes en toda la red.

Eche un vistazo a esta visualización de LeNet utilizada para el reconocimiento de caracteres para tener una idea de las representaciones distribuidas y cómo funcionan las CNN

Visualización 3D de una red neuronal convolucional

Las versiones modificadas de imágenes (parcialmente ocultas, escaladas, traducidas, rotadas, transformadas) pueden ser muy bien reconocidas la mayoría de las veces por redes neuronales convolucionales que han sido entrenadas en conjuntos de datos extensos. Dado que la imagen original finalmente clasificada por dichas redes en términos de las características más detalladas, la eliminación parcial de la imagen original u otras versiones modificadas (donde las proporciones de los objetos de imagen permanecen más o menos intactos) generalmente aún permiten una clasificación y reconocimiento precisos ( si una o más de estas características ultra detalladas aún están presentes en la versión de imagen modificada).

Para redes convolucionales capacitadas, depende de qué tan bien se capacitó la red y qué tipo de filtros de características detallados se utilizaron. Además, hay muchas técnicas que pueden hacer frente con éxito a la rotación, el escalado y otras transformaciones (incluso se puede corregir el desenfoque de la imagen original).

Para la manzana parcialmente cortada en su ejemplo, habrá muchas características específicas y detalladas visibles para redes neuronales de aprendizaje profundo para detectar y reconocer que la manzana no es una piña, una toronja o una naranja (por ejemplo, la estructura detallada, con manchas). forma y / o aspectos detallados superior e inferior, y coloración de una manzana típica).