Aprendizaje profundo: ¿Por qué es verdadera esta oración: “Debido al gran campo receptivo de los descriptores de CNN, la localización puede ser un desafío para la detección de ventana deslizante basada en CNN”.

Los CNN obtienen su nombre de capas convolucionales, que son básicamente buenos filtros lineales viejos. El giro es que la red aprende esos filtros de los datos.

Ahora, hay dos factores que dificultan la localización en las CNN profundas:

  • Profundidad: la salida de una convolución de filtro en una sola ubicación es un solo número . Si esta salida en una ubicación es alta y decide que su objeto podría estar allí, no tiene forma de señalar la ubicación del objeto en el área de la imagen donde se aplicó el filtro. Este problema se vuelve más grave a medida que aumenta el tamaño (o campo receptivo) del filtro. Además, las CNN suelen tener muchas capas de convolución, por lo que este problema se agrava.
  • Agrupación: las muchas capas convolucionales en las CNN generalmente se entrelazan con capas de agrupación, que toman el máximo de su campo receptivo (o, a veces, el promedio) y lo transmiten. Es bastante fácil ver cómo esta operación destruye la información de localización.