Para comprender por qué las CNN son mejores para las imágenes que las RNN, primero debemos comprender sus componentes fundamentales.
Primero, las CNN:
Los CNN tienen varios filtros / núcleos diferentes que consisten en parámetros entrenables (inicializados aleatoriamente) dependiendo de la profundidad y los filtros en cada capa de una red, que pueden convolucionar en un volumen de entrada dado (la primera entrada es la imagen misma) espacialmente para crear algo mapas de características / activación en cada capa. Durante este proceso, (a través de la propagación hacia atrás) aprenden ajustando esos valores iniciales para capturar la magnitud correcta de una característica espacial en la que están involucrados. Este alto número de filtros esencialmente aprende a capturar características espaciales de los volúmenes de entrada en función de la magnitud aprendida. Por lo tanto, pueden reducir con éxito una imagen dada a una representación altamente abstracta que es fácil de predecir.
- Quora: ¿Se volverá sensible la base de datos de Quora?
- Cómo obtener una pasantía en aprendizaje automático de IA en NICTA
- ¿Cuánto tiempo pasará antes de que podamos reemplazar a los conserjes con máquinas?
- ¿La inteligencia artificial solo involucra a robots?
- ¿Es el tiempo de aprendizaje de una red neuronal profunda (por ejemplo, para la detección de objetos) proporcional a la cantidad de datos de entrenamiento disponibles?
Segundo, los RNN:
Los RNN, por otro lado, se utilizan para aprender alguna secuencia y, a diferencia de las imágenes, las partes de una secuencia pueden ser muy diferentes entre sí, lo que al combinarlas sirve como elemento significativo. Por lo tanto, los RNN se diseñaron para mantener esto en contexto y, por lo tanto, idealmente tienen un solo conjunto del filtro que aprende a asociar la entrada actual en cada paso. El mismo filtro (peso).
[1]
Ahora, el problema es que el mismo peso es que no puede ser entrenado para capturar información diferente en diferentes niveles. No podemos tener ese grado de generalización de un solo conjunto de filtros. Por lo tanto, no se puede usar.
Notas al pie
[1] CS231n: Redes neuronales convolucionales para el reconocimiento visual