¿Cómo afectan las imágenes que se filtran con diferentes filtros de imagen al entrenamiento de las redes neuronales profundas?

Los filtros normalmente eliminarán o mejorarán cierta información en las imágenes. Por lo tanto, los algoritmos de reconocimiento de imagen, basados ​​en el aprendizaje automático (ML) artesanal o de extremo a extremo, definitivamente se verán afectados por el tipo de filtros utilizados. Así que déjame tratar de discutir cada caso por separado:

Caso # 1 :

Por ejemplo, si tiene que eliminar el sesgo hacia un fondo blanco, ese es bastante fácil, simplemente aplique una función absoluta al término del producto punto.

[matemáticas] f (x) = \ varphi (| w ^ {T} x | + b) [/ matemáticas]

Como la mayoría de los filtros de bajo nivel son sensibles a la polaridad, es decir, son sensibles a la alineación del límite blanco-negro o la polaridad del borde. Si el límite se invierte, el producto punto también invierte el signo. Entonces, una operación absoluta elimina esa sensibilidad a la alineación del límite oscuro-brillante.

También puede usar un detector de bordes y alimentar la información del borde a los algoritmos de aprendizaje. Aunque esto elimina una gran cantidad de información de las imágenes. El otro enfoque es hacer la normalización del contraste local o la normalización de la respuesta local (LRN) para eliminar la sensibilidad a las áreas de fuerte contraste. LRN en realidad mejora la información más importante al tiempo que elimina las menos importantes, como las áreas que son simplemente blanco / negro o cualquier otro color, por ejemplo. La aplicación de LRN en cada capa mejora el rendimiento.

Caso # 2:

Escala de grises vs color? Bueno, a veces el color es diagnóstico del problema en cuestión, por lo que es mejor utilizar la información del color. La idea es dar a los algoritmos de reconocimiento de imágenes toda la información y dejar que descubran qué es importante y qué no.

Entonces, si el color es importante o no, esa información estará contenida en los mismos filtros finales capacitados. Si sabe de antemano que el color no es importante, simplemente puede aplicar un filtro de escala de grises para eliminar la información de color de las imágenes.

Un sistema capacitado en imágenes en escala de grises no será sensible a la información del color. Por lo tanto, a dicho sistema no le importará si la entrada es una escala de grises o una imagen en color.

Sin embargo, un sistema capacitado en imágenes en color se verá afectado si durante la inferencia lo alimenta con imágenes en escala de grises. Para eliminar dicho efecto, utilice el aumento de datos, simplemente cree una imagen de escala de grises adicional para cada imagen de color de entrenamiento. Eso hará que el sistema sea menos sensible al cambio de color, como el cambio de escala de grises a color y viceversa.

Caso # 3 :

Dicho efecto borroso se puede reducir mediante el uso de filtros a gran escala, es decir, submuestrear las imágenes. Esto eliminará la sensibilidad al desenfoque de movimiento. Esto se debe a que el desenfoque elimina la información de alta frecuencia que afecta mucho más a los filtros de baja escala que a los filtros de mayor escala. Entonces, al submuestrear las imágenes, los filtros serán más sensibles a la información de mayor escala, por lo tanto, se verán menos afectados por el desenfoque de movimiento o cualquier otro tipo de desenfoque.

También es importante procesar imágenes usando el enfoque de escala espacial. Es decir, procesar la información de la imagen a múltiples escalas, sí, los enfoques actuales de ML han descartado este importante concepto de visión por computadora (CV) y procesamiento de señales, pero es un concepto biológicamente plausible muy importante, para mis diseños, ya sean artesanales o no, considero usar múltiples escamas.

Caso # 4:

Bueno, no estoy seguro de entender esto. Hay dos formas de ver esta,

  • Clase incorrecta en el conjunto de entrenamiento.
  • Clase incorrecta en el conjunto de prueba

En ambos casos, lo mejor es limpiar los datos antes de alimentar los algoritmos de aprendizaje automático. La mayoría del rendimiento de los sistemas se verá muy afectado por esto, especialmente si el conjunto de datos es pequeño. Otra manera es usar un conjunto de datos muy grande.

Caso # 5:

La mayoría de los sistemas de ML actuales no se generalizan bien a las imágenes artificiales. Cuando se entrena en datos sintéticos, por ejemplo, la mayoría de los sistemas de ML aprenderán la distribución de esos datos sintéticos, pero probablemente no se generalizarán a la configuración del mundo real, esto también se aplica al revés.

Tomemos, por ejemplo, el aprendizaje de refuerzo profundo (RL profundo) actualmente funciona bien en entornos virtuales, pero en el mundo real existen desafíos extremadamente difíciles. Quizás la parte exploratoria es demasiado aleatoria para el mundo real, el mundo real tiene demasiadas posibilidades, muchas de las cuales son irreversibles, un robot que se arroja desde la azotea solo para aprender, no puede deshacer eso.


Por lo tanto, diferentes efectos de imagen tendrán diferentes rangos de respuestas de un sistema de reconocimiento de imágenes. En la mayoría de los casos, queremos que nuestros sistemas sean invariables para muchas transformaciones, como escala, rotación, traslación, color, iluminación y muchas más. Sin embargo, a veces es importante recuperar tales transformaciones, como en la detección de objetos, necesitamos saber dónde están los objetos reconocidos, pero el sistema de reconocimiento no necesita ser sensible a la ubicación de esos objetos, por eso la detección de objetos es tan difícil.

En otros casos, desea que su sistema describa el contenido de una imagen teniendo en cuenta los detalles específicos, como:

Hay un auto rojo cerca del cruce en T que gira a la derecha

Es por eso que la percepción es una tarea tan difícil para las máquinas.

Espero que esto ayude.

Parece que has respondido tu pregunta en la primera línea. Estás entrenando un clasificador de bicicletas en escenas del mundo real. Entonces, para responder a sus preguntas:

  1. La primera imagen, por supuesto, no es una escena real, por lo que las imágenes con fondos blancos deben eliminarse. De lo contrario, esto también es esencial, ya que el modelo podría aprender que las imágenes con contenido blanco tienen una bicicleta con una alta probabilidad, según sus datos de entrenamiento.
  2. Si incluye muchas imágenes en escala de grises, la red probablemente se volverá independiente de la información de color. Vea si el color es un factor importante en su clasificación; según yo, los factores más importantes son las ruedas de la bicicleta y las personas que la montan.
  3. Asegúrese de que su conjunto de imágenes contenga tanto bicicletas en reposo como personas que lo utilicen. Esto es más importante que el desenfoque de movimiento, que generalmente es un filtro de promedio con un núcleo horizontal con alta sigma, y ​​las CNN con grandes capas de agrupación probablemente deberían poder manejarlo. El descanso v / s de personas que viajan es importante porque no desea que la presencia de una persona tenga un alto antes de la presencia de una bicicleta, es decir, si no incluye imágenes de bicicletas en reposo, el modelo asumirá que una bicicleta siempre tiene una persona con ella.
  4. Su ‘otra’ clase debería ser solo imágenes de escenas naturales sin bicicletas, ya que esa será su situación de despliegue objetivo. Una buena manera de tener una idea de lo que debería ser la ‘otra’ clase es: ejecute un pequeño modelo de clasificador de escena en el conjunto de imágenes de la bicicleta y obtenga una distribución sobre las imágenes de la escena en su clase positiva. Use esta distribución para tomar muestras de todas las imágenes de escena para crear una clase negativa con una distribución de clase idéntica (en términos de escenas) pero con la diferencia de que no hay bicicletas en ella. Puede encontrar un buen modelo de clasificación de escenas aquí: Places2-A Base de datos a gran escala para la comprensión de escenas.
  5. No. A continuación (4), su despliegue estará en imágenes de escenas reales, por lo que no tiene sentido confundir el clasificador con imágenes artificiales.

Puede relajar cada una de estas restricciones en función de la cantidad de datos que encuentre con las restricciones impuestas, pero asegúrese de que el rendimiento del modelo no disminuya al relajar las restricciones: no tiene sentido incluir más datos si solo disminuye la señal.

Diferentes filtros pueden tener diferentes efectos sobre los resultados de clasificación, consulte este par de documentos: [1703.06857] Las redes neuronales profundas no reconocen las imágenes negativas y [1604.04004] Comprender cómo la calidad de la imagen afecta las redes neuronales profundas

More Interesting

¿Cuál es la mejor manera de hacer un análisis de sentimientos de los datos de Facebook en Java?

Cómo entrenar algoritmos relacionados con IA sin una GPU decente

¿Dónde puedo encontrar el conjunto de datos para un sistema de recomendación?

¿Hay aplicaciones de IA en adquisiciones?

¿Ubuntu es mejor con machine learning que mac?

¿Cuál es un algoritmo de detección de imagen apropiado para detectar corrosión / óxido?

¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?

¿Qué tan importante es entender el cerebro para el aprendizaje profundo y viceversa?

¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?

¿Cuáles son los pasos necesarios para el análisis de sentimientos de las redes sociales?