¿Por qué solo se utilizan redes neuronales convolucionales para imágenes, en lugar de otras técnicas de aprendizaje profundo?

Corrección: las convoluciones generalmente se usan en imágenes con RNN que se usan alguna vez. Además, la mayoría de las redes neuronales convolucionales tienen capas FC, las redes convolucionales puras son raras.

Entonces por qué ?

¡Porque teóricamente podrías usar también DenseNets completamente de imágenes, pero eso requeriría conjuntos de datos aún más grandes que los actuales convnets! Los convexos tienen una arquitectura única en la que las circunvoluciones reducen las dimensiones de la imagen mediante la extracción de características locales, de modo que los datos sobre los que se debe entrenar la capa densa son menores y se pueden ajustar.

Si le preguntas a Convnets vs RNNs en imágenes, simplemente sucede que parece que las convnets funcionan mejor en las imágenes. No es que no se usen RNN. Este sesgo parece que los RNN funcionan mejor en sonido y texto.

No es cierto, CNN solo se usa en imágenes en lugar de algún módulo de aprendizaje profundo como Deep Generative Models, la red neuronal recurrente se usa mucho hoy en día.

La teoría de la red neuronal convolucional (CNN) se extrae del sistema de procesamiento visual humano. CNN proporciona un conjunto de filtros jerárquicos en la imagen y, finalmente, extrae muchas características latentes que realmente concluyen un significado semántico para la imagen. Por esta razón, CNN es el mejor intérprete para las imágenes.

Pero el modelado generativo como Deep Belief Network, Deep Boltzmann Machine, Generating Adversarial Networks se utilizan para la síntesis, generación y clasificación de imágenes.

Para la segmentación de imágenes y la generación de subtítulos, se utilizan la red neuronal recurrente (RNN) y la integración CNN-RNN.