¿Cómo responden las redes neuronales profundas para la clasificación de imágenes a las variaciones típicas de la imagen, como la iluminación, la distancia focal, etc.?

No son particularmente invariables para la iluminación, la distancia focal o el cambio de punto de vista, pero son simplemente tolerantes a esas condiciones. La tolerancia se produce de muchas maneras, la tolerancia a los cambios de distorsión, como el cambio del punto de vista o el cambio de la distancia focal de la cámara, se crean alternando capas de submuestreo.

Si bien la tolerancia a los cambios de iluminación se puede construir al blanquear las imágenes o al realizar la normalización de respuesta local (LRN) o la normalización de contraste local en la entrada o en la salida de cada capa en la red.

En general, se puede aumentar la tolerancia a cualquier transformación [matemática] T [/ matemática] al aumentar el conjunto de datos originales.

[matemáticas] S = [x_1, x_2, …, x_ {n}] [/ matemáticas]

Con el conjunto de datos transformado [math] T (S) [/ math] para construir un conjunto de datos aumentado.

[matemáticas] S_ {aumentada} = [S, T (S)] [/ matemáticas]

donde [matemáticas] T (S) = [T (x_1), T (x_2),…, T (x_ {n})] [/ matemáticas]

Al entrenar el sistema de reconocimiento de imágenes con [math] S_ {augmented} [/ math] se acumula tolerancia a la transformación [math] T [/ math]. [matemática] T [/ matemática] puede ser cualquier cosa como iluminación, rotación, escalado, etc.

Por lo tanto, al transformar deliberadamente las imágenes usando varias transformaciones y aumentar esos puntos transformados en el conjunto de datos originales, el sistema aprende a mapear esas imágenes transformadas de la misma manera que el original, creando así una representación que es algo tolerante a esas transformaciones.

Espero que esto ayude.

Bueno, esa es la belleza de Deep Networks, ¿verdad?

La razón por la que se llaman profundos es porque tienen tantas capas dispuestas en jerarquías. Cada capa tiene nodos de activación que aprenden un aspecto de la imagen, como bordes, gradientes, esquinas u objetos completos. Debido a que estas redes tienen miles de millones de tales nodos, son capaces de capturar de manera implícita los detalles intrincados de la iluminación y otros parámetros específicos de la cámara, lo que lleva a una representación más general de varios objetos.

More Interesting

Como estudiante que realiza un curso de algoritmos de aprendizaje automático, ¿en qué debe centrarse el objetivo principal para maximizar el conocimiento aplicable al final del semestre?

¿En qué tipos de problemas de regresión son comparables las redes neuronales, las máquinas de vectores de soporte, los bosques aleatorios y las redes neuronales profundas? ¿La superioridad de los métodos depende del tamaño del entrenamiento?

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

Cómo decidir si usar modelos de aprendizaje automático supervisados ​​o de refuerzo

¿Cuáles son las instituciones en India que ofrecen cursos de aprendizaje automático y minería de datos y cuáles son las áreas posteriores?

¿Qué algoritmos de aprendizaje automático se pueden usar para crear una calculadora matemática de lenguaje natural en Python?

¿Puede ingresar al programa de doctorado CS de nivel superior / siguiente sin publicación, suponiendo que tenga una experiencia de investigación decente?

Soy un ingeniero electrónico que conoce algoritmos de aprendizaje automático, big data, estadísticas, SQL, Matlab. ¿Puedo ser contratado como ingeniero de IA de nivel básico?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?

¿El evento IBM Watson vs. Jeopardy perjudicó los campos de aprendizaje automático e inteligencia humana?

¿Podría la renormalización de lotes reemplazar la normalización de lotes virtual en las GAN?

¿Qué es una red cortical recurrente?

¿Qué son las máquinas complejas?

¿Cómo se compara Caffe 2 con TensorFlow?