En una CNN, cuando la convolución se realiza entre 6 fuentes y 16 mapas como en LeNet, ¿cómo se hacen las convoluciones?

Al principio solía estar confundido por esto también. Cuando hay más de una fuente, digamos canales [matemáticos] k [/ matemáticos], una operación de convolución muestreará un volumen [matemático] k * M * N [/ matemático] debido a que una unidad en la capa por encima del nivel en la pregunta también tiene [math] k * M * N [/ math] ponderaciones, es decir, se conecta a un volumen [math] k * M * N [/ math] de unidades debajo de ella. Donde [math] M [/ math] y [math] N [/ math] son ​​dimensiones del campo receptivo de las neuronas en un nivel superior al de la pregunta.

Entonces, una operación de convolución es como una ventana deslizante, la ventana de muestreo necesita muestrear los otros canales, no uno a la vez, sino todos a la vez. Por lo tanto, en su caso, la operación convolucional en cada punto obtendrá un volumen [matemático] 6 * M * N [/ matemático] para los 6 mapas de características y el volumen [matemático] 16 * M * N [/ matemático] para los 16 mapas de características . Para la primera capa de entrada de un solo canal es solo el volumen [matemático] 1 * M * N [/ matemático] como se esperaba. Si tuviera una entrada RGB de 3 canales, entonces sería [math] 3 * M * N [/ math] volumen de muestra.

Espero que esto ayude.

De entrada a C1: cada filtro es un cuadrado 2D de M * M. Existen tales 6 filtros para generar 6 mapas de características para C1.

De S2 a C3: cada filtro es cúbico 3D de 6 * N * N. Existen tales 16 filtros, para generar 16 mapas de características para C3.

De S4 a C5: cada filtro es cúbico 3D de 16 * 5 * 5 (tenga en cuenta que el tamaño total de S4 es 16 * 5 * 5). Hay 120 filtros de este tipo, para generar 120 mapas de características para C6 (tenga en cuenta que cada mapa de características ya no es 2D, se reduce a 1D, es decir, un número escalar. En otras palabras, el C6 es un 120 por- 1 vector ).

Las partes restantes, C5 a F6 a Salida, son solo redes neuronales de avance sin filtros.

¡MUY SIMPLE!

Realmente no hay ninguna diferencia en las dos (o no importa cuántas) capas de convolución que tenga. Todos pueden ser generalizados.

Una capa convolucional es una capa que convierte una imagen de entrada de n canales en una imagen de salida de canal p . Ahora esto puede ser un poco confuso ya que un valor arbitrario de n & p no tiene sentido en el caso de las imágenes, pero piensa que son algún tipo de imágenes. Eso es !!

En LeNet, la primera capa convolucional es una conversión de una imagen de 1 canal (n = 1) a una imagen de 6 canales (p = 6). Sí, lo entendiste bien, 6 filtros de convolución (todos son filtros de 1 canal) y 6 mapas de funciones.

En la segunda capa convolucional, es una conversión de una imagen de 6 canales (n = 6) a una imagen de 16 canales (p = 16). Creo que ahora lo tienes, 16 filtros de convolución (todos son filtros de 6 canales) y, por lo tanto, 16 mapas de características.

Entonces, en una capa convolucional, tenemos filtros de n canales (de algún tamaño definido por el usuario) y tenemos p de ellos, lo que produce p mapa de características.

Espero eso ayude.

16 filtros, y la entrada para cada filtro en cada punto es el campo receptivo correspondiente de los 6 mapas de entrada.

More Interesting

Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?

¿Es posible entrenar a un RNN en una sola secuencia extremadamente larga?

¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

¿Las redes RBM (máquina de Boltzman restringida) suelen tener el mismo número de nodos por capa?

¿Qué se usa en autos sin conductor, aprendizaje automático o aprendizaje profundo?

¿Hay algún instituto que ofrezca aprendizaje automático?

Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?

¿La traducción automática alguna vez reemplazará a los traductores humanos? ¿Cómo podría una traducción automática comprender el contexto sociolingüístico de un texto?

¿Qué herramientas matemáticas puedes usar para analizar el comportamiento de las redes neuronales en el tiempo?

¿Qué significa el siguiente pasaje de un documento de aprendizaje profundo sobre aprendizaje automático sobre representaciones distribuidas frente a representaciones no distribuidas?

¿Cuáles son los mejores algoritmos de aprendizaje sin supervisión para la corrección ortográfica?

¿Se utilizan algoritmos básicos de CS en el aprendizaje automático?

En la minería de texto, ¿por qué deberíamos eliminar el término disperso de la matriz de términos del documento?

¿Cómo se evalúa si uno tiene una buena palabra incrustada?

¿Cómo funciona el modelo de red neuronal profunda en la predicción de regresión en los datos del sensor?