¿Puede la red neuronal convolucional reconocer un objeto en cualquier condición?

Sí. Con el preprocesamiento y la capacitación correctos, un convnet debe reconocer objetos en todas las condiciones que mencionó. Sus esfuerzos en el preprocesamiento serán menores si tiene un gran conjunto de datos, de lo contrario, tendrá que comenzar a procesar mucho.

el objeto está presente en cualquier orientación posible

el objeto está presente a cualquier distancia

¿Pueden Kmeans y el algoritmo DBSCAN dar el mismo resultado para un conjunto de datos en particular?
¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?
¿Cuál es la desventaja de usar ADVI?
¿Cuál es el principio del aprendizaje profundo?
Procesamiento del lenguaje natural: ¿De qué maneras puedo probar el error de aplicar un modelo de tema a los tweets, dado que no hay un corpus conocido de etiquetas de temas?

el objeto está presente en diferentes condiciones de rayos

Para las tres condiciones anteriores, su conjunto de datos debe tener muchas variaciones / puntos de datos (por ejemplo, imagenet tiene puntos de datos con varios niveles y orientaciones de zoom, por lo que el entrenamiento directo en imagenet podría estar bien para que convnet funcione bien en todas estas condiciones) por suficiente características que se deben aprender en cada una de las condiciones o de lo contrario tendrá que simular estas condiciones para que convnet aprenda mediante preprocesamiento / aumento.

El objeto es similar pero diferente como dos caras diferentes, gatos, planos, etc. El objeto está parcialmente oculto. Los objetos ocluidos son particularmente difíciles y hay una investigación especial para esta categoría.

Aprendizaje automáticoAprendizaje profundoconvolucionalesRedes neuronalesRedes neuronales artificiales

¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?

¿Cuál es un buen algoritmo para la extracción de características y la detección de texto escrito a mano?

¿Qué es un componente principal y por qué se llama así?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?

¿Qué son las máquinas complejas?

Cómo calcular un puntaje usando la prueba de relación de distancia al vecino más cercano en MATLAB

Las características de la red neuronal convolucional funcionan bastante bien en comparación con las características hechas a mano convencionales que a menudo pueden fallar en diferentes escenarios, como la oclusión, la escala y las diferentes condiciones de iluminación. Esto se debe a las siguientes razones:

1) Invarianza de traducción: La propiedad de invariancia de traducción de la CNN se obtiene debido a las capas de agrupación. La técnica más común para la agrupación utilizada es la agrupación máxima. Cuando conectamos en cascada una capa de agrupación máxima con una capa convolucional, hay 8 direcciones en las que se puede traducir la imagen de entrada en un solo píxel. Si la agrupación máxima se realiza en una región de 2 × 2, 3 de estas 8 configuraciones posibles producirán exactamente la misma salida (ya que estamos haciendo la operación máxima en una región de 2 × 2) en la capa convolucional. Debido a esto podemos obtener la propiedad de invariancia de traducción en CNN.

2) Invarianza a diferentes condiciones de iluminación: La razón por la cual CNN es invariable a la iluminación es debido a dos pasos realizados antes de dar entrada a CNN:

a) La resta media es la forma más común de preprocesamiento. Implica restar la media de los datos de entrenamiento antes de dar entrada a la CNN, y tiene una interpretación geométrica de centrar la nube de datos alrededor del origen a lo largo de cada dimensión.

b) Normalización se refiere a normalizar las dimensiones de los datos para que sean de aproximadamente la misma escala. Se puede hacer esto dividiendo cada dimensión por su desviación estándar, una vez que se ha centrado en cero (media restada).

3) Escala de invariancia y oclusión: no es completamente justo afirmar que la CNN es invariante a escala y oclusión. Sin embargo, funciona bastante bien en comparación con las características convencionales hechas a mano. La iluminación de esta propiedad depende de la diversidad de datos que proporcionamos a la red para capacitación. A continuación se muestran algunos resultados de RCNN ( redes neuronales convolucionales basadas en la región ). Aquí podemos ver que RCNN no puede detectar todas las instancias de objetos, especialmente aquellas en diferentes escalas (figura 1,4) y aquellas que están ocluidas (figura 3).

Fuente de imágenes: resultados de ejemplo RCNN

Himesh

No, eso no es cierto en general.

Otro ejemplo:

Si bien es fácil engañar a una CNN para que crea algo sobre una imagen que no es así y viceversa, creo que la CNN se desempeña razonablemente bien en las tareas según lo solicitado por el OP.

Uno de los trucos utilizados para entrenar a CNN para que sea algo invariable con la imagen es el aumento de datos .