Los filtros normalmente eliminarán o mejorarán cierta información en las imágenes. Por lo tanto, los algoritmos de reconocimiento de imagen, basados en el aprendizaje automático (ML) artesanal o de extremo a extremo, definitivamente se verán afectados por el tipo de filtros utilizados. Así que déjame tratar de discutir cada caso por separado:
Caso # 1 :
Por ejemplo, si tiene que eliminar el sesgo hacia un fondo blanco, ese es bastante fácil, simplemente aplique una función absoluta al término del producto punto.
- ¿Hay algún ejemplo en la inferencia bayesiana de que, incluso con infinitos puntos de datos, el efecto de lo anterior no puede ser "eliminado"?
- ¿Es realmente posible comenzar una carrera seria de IA / ML con el objetivo final de trabajar en un lugar como OpenAI, Google o DeepMind a través del autoestudio?
- ¿Existe una incrustación del espacio euclidiano en el espacio hamming?
- ¿Qué áreas debo conocer bien para ser un buen ingeniero de visión por computadora?
- ¿Cómo encuentro y uso información en el diseño de máquinas?
[matemáticas] f (x) = \ varphi (| w ^ {T} x | + b) [/ matemáticas]
Como la mayoría de los filtros de bajo nivel son sensibles a la polaridad, es decir, son sensibles a la alineación del límite blanco-negro o la polaridad del borde. Si el límite se invierte, el producto punto también invierte el signo. Entonces, una operación absoluta elimina esa sensibilidad a la alineación del límite oscuro-brillante.
También puede usar un detector de bordes y alimentar la información del borde a los algoritmos de aprendizaje. Aunque esto elimina una gran cantidad de información de las imágenes. El otro enfoque es hacer la normalización del contraste local o la normalización de la respuesta local (LRN) para eliminar la sensibilidad a las áreas de fuerte contraste. LRN en realidad mejora la información más importante al tiempo que elimina las menos importantes, como las áreas que son simplemente blanco / negro o cualquier otro color, por ejemplo. La aplicación de LRN en cada capa mejora el rendimiento.
Caso # 2:
Escala de grises vs color? Bueno, a veces el color es diagnóstico del problema en cuestión, por lo que es mejor utilizar la información del color. La idea es dar a los algoritmos de reconocimiento de imágenes toda la información y dejar que descubran qué es importante y qué no.
Entonces, si el color es importante o no, esa información estará contenida en los mismos filtros finales capacitados. Si sabe de antemano que el color no es importante, simplemente puede aplicar un filtro de escala de grises para eliminar la información de color de las imágenes.
Un sistema capacitado en imágenes en escala de grises no será sensible a la información del color. Por lo tanto, a dicho sistema no le importará si la entrada es una escala de grises o una imagen en color.
Sin embargo, un sistema capacitado en imágenes en color se verá afectado si durante la inferencia lo alimenta con imágenes en escala de grises. Para eliminar dicho efecto, utilice el aumento de datos, simplemente cree una imagen de escala de grises adicional para cada imagen de color de entrenamiento. Eso hará que el sistema sea menos sensible al cambio de color, como el cambio de escala de grises a color y viceversa.
Caso # 3 :
Dicho efecto borroso se puede reducir mediante el uso de filtros a gran escala, es decir, submuestrear las imágenes. Esto eliminará la sensibilidad al desenfoque de movimiento. Esto se debe a que el desenfoque elimina la información de alta frecuencia que afecta mucho más a los filtros de baja escala que a los filtros de mayor escala. Entonces, al submuestrear las imágenes, los filtros serán más sensibles a la información de mayor escala, por lo tanto, se verán menos afectados por el desenfoque de movimiento o cualquier otro tipo de desenfoque.
También es importante procesar imágenes usando el enfoque de escala espacial. Es decir, procesar la información de la imagen a múltiples escalas, sí, los enfoques actuales de ML han descartado este importante concepto de visión por computadora (CV) y procesamiento de señales, pero es un concepto biológicamente plausible muy importante, para mis diseños, ya sean artesanales o no, considero usar múltiples escamas.
Caso # 4:
Bueno, no estoy seguro de entender esto. Hay dos formas de ver esta,
- Clase incorrecta en el conjunto de entrenamiento.
- Clase incorrecta en el conjunto de prueba
En ambos casos, lo mejor es limpiar los datos antes de alimentar los algoritmos de aprendizaje automático. La mayoría del rendimiento de los sistemas se verá muy afectado por esto, especialmente si el conjunto de datos es pequeño. Otra manera es usar un conjunto de datos muy grande.
Caso # 5:
La mayoría de los sistemas de ML actuales no se generalizan bien a las imágenes artificiales. Cuando se entrena en datos sintéticos, por ejemplo, la mayoría de los sistemas de ML aprenderán la distribución de esos datos sintéticos, pero probablemente no se generalizarán a la configuración del mundo real, esto también se aplica al revés.
Tomemos, por ejemplo, el aprendizaje de refuerzo profundo (RL profundo) actualmente funciona bien en entornos virtuales, pero en el mundo real existen desafíos extremadamente difíciles. Quizás la parte exploratoria es demasiado aleatoria para el mundo real, el mundo real tiene demasiadas posibilidades, muchas de las cuales son irreversibles, un robot que se arroja desde la azotea solo para aprender, no puede deshacer eso.
Por lo tanto, diferentes efectos de imagen tendrán diferentes rangos de respuestas de un sistema de reconocimiento de imágenes. En la mayoría de los casos, queremos que nuestros sistemas sean invariables para muchas transformaciones, como escala, rotación, traslación, color, iluminación y muchas más. Sin embargo, a veces es importante recuperar tales transformaciones, como en la detección de objetos, necesitamos saber dónde están los objetos reconocidos, pero el sistema de reconocimiento no necesita ser sensible a la ubicación de esos objetos, por eso la detección de objetos es tan difícil.
En otros casos, desea que su sistema describa el contenido de una imagen teniendo en cuenta los detalles específicos, como:
” Hay un auto rojo cerca del cruce en T que gira a la derecha ”
Es por eso que la percepción es una tarea tan difícil para las máquinas.
Espero que esto ayude.