¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

Dado un mapa de características [math] f [/ math] de tamaño:

[matemáticas] w × h × c [/ matemáticas]

donde [matemática] w [/ matemática] = ancho, [matemática] h [/ matemática] = altura, [matemática] c [/ matemática] = canales

Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?
¿La traducción automática alguna vez reemplazará a los traductores humanos? ¿Cómo podría una traducción automática comprender el contexto sociolingüístico de un texto?
¿Cuáles son algunos de los obstáculos que evitan que las empresas aprovechen el poder del aprendizaje automático?
¿En qué se diferencia el aprendizaje profundo del perceptrón multicapa?
¿Alguna forma de dormir será esencial en la IA (inteligencia artificial)?

El mapa de características [math] f [/ math] es generado por los filtros [math] c [/ math], es posible generar un nuevo mapa de características [math] \ hat {f} [/ math] con tamaño:

[matemáticas] w × h × \ hat {c} [/ matemáticas]

Al pasar una operación de convolución [matemática] 1 × 1 [/ matemática], el filtro mismo en la convolución [matemática] 1 × 1 [/ matemática] muestrea un volumen 3D de tamaño [matemático] 1 × 1 × c [/ matemático] entonces, en este caso, solo los canales juegan un papel en los cálculos de [math] \ hat {f} [/ math] y no en la información espacial. Esta operación puede verse como una reducción de dimensionalidad si [math] \ hat {c} <c [/ math]. Por lo tanto, el filtro [math] 1 × 1 [/ math] sintetiza brevemente un nuevo conjunto de filtros [math] \ hat {c} [/ math] de un conjunto anterior [math] c [/ math].

Permítanme dar un ejemplo simplificado, dada una imagen en color de tamaño [matemática] w × h × 3 [/ matemática]. Está claro que cuando se trabaja con los canales de color sin procesar R, G y B, los valores entre ellos están correlacionados, es decir, los valores son casi siempre similares o cercanos entre sí, eso no es bueno. Hay una manera de mejorar el contraste entre los canales, podemos usar la competencia para eso. Afortunadamente, hay una teoría en neurociencia llamada proceso del oponente [1] para el procesamiento del color en la corteza visual.

En este proceso, los canales de color compiten entre sí para aumentar el contraste entre ellos. El proceso del oponente tiene 3 procesos competitivos (canales), el canal blanco vs negro, el canal rojo vs verde y el amarillo (rojo + verde) vs azul. Podemos utilizar el concepto de convoluciones [matemática] 1 × 1 [/ matemática] para implementar este proceso oponente en nuestros modelos. Podemos calcular una nueva imagen del mismo tamaño que la imagen original al muestrear un volumen [matemático] 1 × 1 × 3 [/ matemático] en cada ubicación de la imagen original y aplicar los 3 filtros. Esos 3 filtros tienen tamaño [matemático] 1 × 1 × 3 [/ matemático] con los siguientes pesos.

filtro blanco vs negro (w / bl) tiene pesos

[matemáticas] w_ {w / bl} = [1 / 3,1 / 3,1 / 3] [/ matemáticas]

que produce una escala de grises o un canal de luminancia.

el filtro rojo vs verde (r / g) tiene pesos

[matemáticas] w_ {r / g} = [1, -1,0] [/ matemáticas]

el filtro amarillo (r + g) vs azul (y / b) tiene pesos

[matemáticas] w_ {y / b} = [1 / 2,1 / 2, -1] [/ matemáticas]

Así que ahora tenemos los canales oponentes de color en lugar de los canales RGB originales usando la operación de convolución [matemática] 1 × 1 [/ matemática]. Esto puede extenderse no solo a los canales de color, sino a cualquier canal de características en cualquier capa.

Espero que esto ayude.

Notas al pie

[1] Proceso de oposición – Wikipedia

Aprendizaje automáticoAprendizaje profundoEstadísticaFísicaRedes neuronales artificialesRedes neuronales convolucionales