Cuando dices Procesamiento de imágenes, supongo que estás hablando de redes neuronales convolucionales. Estas redes están hechas específicamente para el procesamiento de imágenes y la extracción de características.
Lo que hacen estas redes es que tienen una ventana deslizante. El tamaño es muy pequeño (5px x 5px) y está especificado por el programador.
Ahora, cuando entrene esto en una imagen, la ventana deslizante, como su nombre indica, comienza a deslizarse horizontalmente. Comienza desde la parte superior izquierda de la imagen y se mueve hacia el extremo derecho. Luego baja una fila y sigue moviéndote así.
- ¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?
- ¿Es posible el aprendizaje automático acelerado por GPU utilizando un controlador de gráficos de software libre?
- ¿Cuál es la mejor manera de analizar y predecir en base a un conjunto de datos que tiene texto y números?
- ¿Cuál es la mejor red neuronal o SVM para la clasificación de texto de etiquetas múltiples?
- ¿Cuáles son los beneficios de convertir una capa totalmente conectada en una red neuronal profunda a una capa convolucional equivalente?
Ahora, el papel principal de la ventana deslizante es que cada vez que encuentra un gran cambio en la variación en esa ventana, toma esa característica y la guarda.
Así es como funciona una red convolucional.
Si entra en el reconocimiento facial, las características genéricas son, la frente, los ojos, el área de la nariz, etc.