¿Puede la red neuronal convolucional reconocer un objeto en cualquier condición?

Sí. Con el preprocesamiento y la capacitación correctos, un convnet debe reconocer objetos en todas las condiciones que mencionó. Sus esfuerzos en el preprocesamiento serán menores si tiene un gran conjunto de datos, de lo contrario, tendrá que comenzar a procesar mucho.

el objeto está presente en cualquier orientación posible

el objeto está presente a cualquier distancia

el objeto está presente en diferentes condiciones de rayos

Para las tres condiciones anteriores, su conjunto de datos debe tener muchas variaciones / puntos de datos (por ejemplo, imagenet tiene puntos de datos con varios niveles y orientaciones de zoom, por lo que el entrenamiento directo en imagenet podría estar bien para que convnet funcione bien en todas estas condiciones) por suficiente características que se deben aprender en cada una de las condiciones o de lo contrario tendrá que simular estas condiciones para que convnet aprenda mediante preprocesamiento / aumento.

El objeto es similar pero diferente como dos caras diferentes, gatos, planos, etc. El objeto está parcialmente oculto. Los objetos ocluidos son particularmente difíciles y hay una investigación especial para esta categoría.

Las características de la red neuronal convolucional funcionan bastante bien en comparación con las características hechas a mano convencionales que a menudo pueden fallar en diferentes escenarios, como la oclusión, la escala y las diferentes condiciones de iluminación. Esto se debe a las siguientes razones:

1) Invarianza de traducción: La propiedad de invariancia de traducción de la CNN se obtiene debido a las capas de agrupación. La técnica más común para la agrupación utilizada es la agrupación máxima. Cuando conectamos en cascada una capa de agrupación máxima con una capa convolucional, hay 8 direcciones en las que se puede traducir la imagen de entrada en un solo píxel. Si la agrupación máxima se realiza en una región de 2 × 2, 3 de estas 8 configuraciones posibles producirán exactamente la misma salida (ya que estamos haciendo la operación máxima en una región de 2 × 2) en la capa convolucional. Debido a esto podemos obtener la propiedad de invariancia de traducción en CNN.

2) Invarianza a diferentes condiciones de iluminación: La razón por la cual CNN es invariable a la iluminación es debido a dos pasos realizados antes de dar entrada a CNN:

a) La resta media es la forma más común de preprocesamiento. Implica restar la media de los datos de entrenamiento antes de dar entrada a la CNN, y tiene una interpretación geométrica de centrar la nube de datos alrededor del origen a lo largo de cada dimensión.

b) Normalización se refiere a normalizar las dimensiones de los datos para que sean de aproximadamente la misma escala. Se puede hacer esto dividiendo cada dimensión por su desviación estándar, una vez que se ha centrado en cero (media restada).

3) Escala de invariancia y oclusión: no es completamente justo afirmar que la CNN es invariante a escala y oclusión. Sin embargo, funciona bastante bien en comparación con las características convencionales hechas a mano. La iluminación de esta propiedad depende de la diversidad de datos que proporcionamos a la red para capacitación. A continuación se muestran algunos resultados de RCNN ( redes neuronales convolucionales basadas en la región ). Aquí podemos ver que RCNN no puede detectar todas las instancias de objetos, especialmente aquellas en diferentes escalas (figura 1,4) y aquellas que están ocluidas (figura 3).

Fuente de imágenes: resultados de ejemplo RCNN

No, eso no es cierto en general.

Otro ejemplo:

Si bien es fácil engañar a una CNN para que crea algo sobre una imagen que no es así y viceversa, creo que la CNN se desempeña razonablemente bien en las tareas según lo solicitado por el OP.

Uno de los trucos utilizados para entrenar a CNN para que sea algo invariable con la imagen es el aumento de datos .

Sin embargo, se están investigando las técnicas para hacer que la CNN sea más robusta para la clasificación de imágenes.

More Interesting

¿Por qué hay tantas preguntas sobre Machine Learning en Quora?

¿Es aconsejable crear una aplicación basada en el aprendizaje automático y el procesamiento de imágenes sin comprender el concepto matemático subyacente?

¿Cuál es el significado / interpretación de la varianza de validación cruzada?

Will Naive Bayes dará un buen resultado si el conjunto de entrenamiento es mucho más pequeño que el no. de características en un clasificador de aprendizaje automático?

¿Cuáles son las aplicaciones del procesamiento del lenguaje natural en una revista en línea?

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Cómo y cuándo morirá la inteligencia de negocios convencional?

¿Cuáles son algunas reglas de clasificación de pulgares?

¿Cuáles son los pros y los contras de aprender ExpressJS?

¿Cuál es la diferencia entre los diferentes tipos de funciones de activación para redes neuronales y por qué es importante elegir una sobre otra?

¿Cuál es una buena definición de Generalización wrt Deep Learning?

¿Qué núcleo (para los métodos de núcleo en el aprendizaje automático) es menos sensible a la alta dimensión: cauchy, gaussiana o laplaciana?

Cómo proceder si no puedo desempeñarme mejor en un conjunto de datos en particular cuando intento ajustar un modelo de aprendizaje automático

¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?

¿Cuáles son algunos marcos de tiempo realistas para dominar diversas habilidades de programación, como el dominio de Python para la ciencia de datos, git, etc.?