¿Las redes neuronales convolucionales funcionan mejor en problemas de clasificación de imágenes que las redes neuronales recurrentes?

Para comprender por qué las CNN son mejores para las imágenes que las RNN, primero debemos comprender sus componentes fundamentales.

Primero, las CNN:

Los CNN tienen varios filtros / núcleos diferentes que consisten en parámetros entrenables (inicializados aleatoriamente) dependiendo de la profundidad y los filtros en cada capa de una red, que pueden convolucionar en un volumen de entrada dado (la primera entrada es la imagen misma) espacialmente para crear algo mapas de características / activación en cada capa. Durante este proceso, (a través de la propagación hacia atrás) aprenden ajustando esos valores iniciales para capturar la magnitud correcta de una característica espacial en la que están involucrados. Este alto número de filtros esencialmente aprende a capturar características espaciales de los volúmenes de entrada en función de la magnitud aprendida. Por lo tanto, pueden reducir con éxito una imagen dada a una representación altamente abstracta que es fácil de predecir.

Segundo, los RNN:

Los RNN, por otro lado, se utilizan para aprender alguna secuencia y, a diferencia de las imágenes, las partes de una secuencia pueden ser muy diferentes entre sí, lo que al combinarlas sirve como elemento significativo. Por lo tanto, los RNN se diseñaron para mantener esto en contexto y, por lo tanto, idealmente tienen un solo conjunto del filtro que aprende a asociar la entrada actual en cada paso. El mismo filtro (peso).

[1]

Ahora, el problema es que el mismo peso es que no puede ser entrenado para capturar información diferente en diferentes niveles. No podemos tener ese grado de generalización de un solo conjunto de filtros. Por lo tanto, no se puede usar.

Notas al pie

[1] CS231n: Redes neuronales convolucionales para el reconocimiento visual

CNN funciona mejor que RNN porque CNN aprenderá a reconocer los componentes de una imagen (por ejemplo, líneas, curvas, etc.) y luego aprenderá a combinar estos componentes para reconocer estructuras más grandes (por ejemplo, caras, objetos, etc.). Pero en el caso de RNN, aprenderá de manera similar a reconocer patrones a lo largo del tiempo (puede usarse para subtítulos de imágenes).

Recientemente, un modelo conjunto (RNN-CNN) propuesto en “CNN-RNN: Un marco unificado para la clasificación de imágenes de etiquetas múltiples”. Este artículo mostró que este modelo funcionó mejor que la clasificación de imagen de etiquetas múltiples propuesta anteriormente.

Si. Las redes neuronales convolucionales por su estructura tienen suposiciones sobre cómo se ven las imágenes, por ejemplo, que lo que está cerca de la imagen importa más que lo que está lejos. Esto significa que aprenden más fácilmente y aprenden las cosas que queremos, cosas que se generalizan bien a partir de las imágenes en las que se entrena para imágenes invisibles.

En comparación, las redes neuronales recurrentes están diseñadas para secuencias de longitud variable. No tienen una estructura particularmente buena para interpretar imágenes.

Depende completamente de cómo configure el problema y aplique las redes neuronales. Cualquiera puede funcionar, pero a menudo la CNN será más intuitiva de aplicar, especialmente en un contexto temporalmente estático.

Sin duda si.

La explicación de por qué es que las redes neuronales convolucionales tienen filtros que actúan como “detectores de características” que de alguna manera imitan el sistema visual humano. En otras palabras, el ConvNet es adecuado para el dominio de la imagen.

More Interesting

¿Cómo escribe un programador un rastreador web que hace clic en la página?

¿Son los robots humanoides, o autos autónomos, solo una colección de componentes robóticos ensamblados?

¿En qué momento se debe otorgar derechos básicos a una forma de vida, natural o artificial? ¿Cuál es la pregunta de umbral para determinar este punto?

¿Cuál es el estado del arte del sistema de recomendación para 2016?

¿Qué país crees que tendrá primero inteligencia artificial a nivel humano?

¿Cómo la inteligencia artificial cambiará los mercados de valores en el futuro?

Cómo verificar si los asistentes en línea con los que estoy interactuando son humanos o robots

¿Crees que los maestros serán reemplazados por robots algún día?

En una red neuronal (sin saber si es específica para keras), ¿cuál es la diferencia entre el tamaño del lote y el entrenamiento del lote? ¿Cuándo necesitaría ambos?

¿Qué herramientas utilizas para el aprendizaje automático?

¿Es Marvin Minsky un buen programador? ¿Sabe mucho sobre IA o es solo un tipo teórico?

¿Cuáles son las críticas efectivas, si las hay, del 'Principio de optimismo' de David Deutsch: que todo mal proviene de la falta de conocimiento?

Si alguien está interesado tanto en el aprendizaje automático como en la neurociencia, ¿hay alguna forma de combinar estos dos tipos de asignaturas en un proyecto de doctorado?

¿Cuál es un buen algoritmo para la detección de contexto en chatbots?

¿Cuánto costaría implementar UBI en los Estados Unidos?