Al principio solía estar confundido por esto también. Cuando hay más de una fuente, digamos canales [matemáticos] k [/ matemáticos], una operación de convolución muestreará un volumen [matemático] k * M * N [/ matemático] debido a que una unidad en la capa por encima del nivel en la pregunta también tiene [math] k * M * N [/ math] ponderaciones, es decir, se conecta a un volumen [math] k * M * N [/ math] de unidades debajo de ella. Donde [math] M [/ math] y [math] N [/ math] son dimensiones del campo receptivo de las neuronas en un nivel superior al de la pregunta.
Entonces, una operación de convolución es como una ventana deslizante, la ventana de muestreo necesita muestrear los otros canales, no uno a la vez, sino todos a la vez. Por lo tanto, en su caso, la operación convolucional en cada punto obtendrá un volumen [matemático] 6 * M * N [/ matemático] para los 6 mapas de características y el volumen [matemático] 16 * M * N [/ matemático] para los 16 mapas de características . Para la primera capa de entrada de un solo canal es solo el volumen [matemático] 1 * M * N [/ matemático] como se esperaba. Si tuviera una entrada RGB de 3 canales, entonces sería [math] 3 * M * N [/ math] volumen de muestra.
Espero que esto ayude.
- ¿Vale la pena desarrollar un algoritmo de minería de datos más rápido que otros de código abierto y comerciales existentes? Si vale lo suficiente, ¿qué valor tiene ser el algoritmo más rápido?
- Cómo dominar el aprendizaje automático en Python
- ¿Cuáles son algunas habilidades matemáticas altamente relevantes que se requieren si quiero comenzar a investigar en algoritmos de Machine Learning?
- ¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?
- ¿Cómo funciona el muestreo negativo en los modelos de Word2vec?