¿Cuál es el trabajo de la red neuronal en el procesamiento de imágenes? La tecnología cambia la vida futura

La clave para resolver cualquier problema es comprender el área del problema, dividirlo en trozos más pequeños e identificar algún tipo de patrón recurrente que luego pueda generalizarse para problemas similares. El procesamiento de imágenes no es diferente. El quid aquí es señalar que para una imagen, en realidad no necesita la información de cada píxel per se. Déjame dividirlo en términos más simples para ti. Supongamos que tienes la imagen de un árbol. Entonces, si divide la imagen en cuadrículas y mira una cuadrícula, si obtiene una cuadrícula verde, es probable que las cuadrículas cercanas también sean verdes. Por lo tanto, alimentar la información de cada píxel en realidad no agrega mucho valor. Sin embargo, lo que sí desea es centrarse en los límites e identificar diferentes características. Digamos una rama, el tronco, etc. Las imágenes también son susceptibles a los problemas de traslación, rotación, escala, corte, estiramiento, etc.

El objetivo principal de cualquier red neuronal es eliminar la necesidad de diseñar vectores de características a mano. Las redes intentan imitar el funcionamiento de un cerebro, donde solo presentamos la entrada “en bruto”: la imagen y obtenemos la salida directamente. La red está dirigida a extraer las características relevantes automáticamente . Sus diversas aplicaciones en el procesamiento de imágenes pueden ser la clasificación de imágenes, la anotación automática de imágenes, etc. Las redes neuronales convolucionales están específicamente diseñadas teniendo en cuenta lo anterior. La invariancia de cambio se obtiene automáticamente al forzar la replicación de las configuraciones de peso a través del espacio. Agrupar las salidas de los detectores de características replicadas puede dar una pequeña cantidad de invariancia traslacional en cada nivel promediando los detectores replicados vecinos para dar una salida única al siguiente nivel.

Los aspectos más destacados de esta red son los siguientes:

Redes conectadas localmente: restringe las conexiones entre las unidades ocultas y las unidades de entrada para que cada unidad oculta se conecte solo a un pequeño subconjunto de las unidades de entrada.
Convoluciones: Habiendo aprendido las características sobre parches pequeños (digamos 8 × 8) muestreados aleatoriamente de la imagen más grande, podemos aplicar el detector de características 8 × 8 aprendido en cualquier parte de la imagen. Es decir, podemos “convolucionarlos” con la imagen más grande, obteniendo así un valor de activación de función diferente en cada ubicación de la imagen.
Agrupación: es computacionalmente desafiante usar todas las funciones extraídas. Las imágenes tienen una propiedad estacionaria. Por lo tanto, podemos calcular agregaciones como la media o el máximo de las características sin formato: agruparlas para generar una característica de dimensión mucho más baja.

Esta red generalmente consiste en capas convolucionales y de submuestreo, seguidas opcionalmente por capas completamente conectadas.

Hay muchos materiales buenos en la web si desea obtener más información sobre este tipo de red, pero en pocas palabras, eso es lo que hace una CNN en el procesamiento de imágenes.