¿Por qué la resolución de las imágenes de entrada en la red convolucional debe tener la misma dimensión (ancho y alto)?

No es necesariamente el caso. Puede tener diferentes píxeles para diferentes imágenes, pero si desea entrenar una CNN, el tamaño de entrada debe ser el mismo. (Supongo que sabe por qué las entradas deberían ser las mismas para un modelo; de lo contrario, lea la nota al pie) . Para ello, rellena la imagen al máximo de la dimensión de la imagen en su conjunto de datos. (O bien, puede rellenar la imagen para indicar las dimensiones: el relleno de una imagen difiere según la mano de la tarea )

Nota al pie: olvídate de CNN por un tiempo, toma un modelo de regresión lineal. Tiene una característica de salida y características de entrada ‘n’ para todas las muestras para entrenar el modelo, pero no podrá alimentar una entrada que tenga características ‘n + 1’ al modelo anterior porque causa el cambio en el peso dimensiones.

Intente entrenar las matemáticas en NN simple, tendrá su respuesta.

No, no es necesario que la altura y el ancho de la imagen de entrada sean iguales. Muchas personas hacen eso solo por conveniencia. En la práctica, la entrada real a la red generalmente no es la imagen en bruto completa, sino el recorte cuadrado aleatorio de la imagen en bruto. Esto se llama aumento de datos. Por lo tanto, no existe ninguna restricción sobre si la altura y el ancho de la imagen son iguales, solo recortamos parte cuadrada de la imagen.

Esto es culpa de las capas completamente conectadas. Puede solucionar esto con la agrupación promedio global.