Los CNN obtienen su nombre de capas convolucionales, que son básicamente buenos filtros lineales viejos. El giro es que la red aprende esos filtros de los datos.
Ahora, hay dos factores que dificultan la localización en las CNN profundas:
- Profundidad: la salida de una convolución de filtro en una sola ubicación es un solo número . Si esta salida en una ubicación es alta y decide que su objeto podría estar allí, no tiene forma de señalar la ubicación del objeto en el área de la imagen donde se aplicó el filtro. Este problema se vuelve más grave a medida que aumenta el tamaño (o campo receptivo) del filtro. Además, las CNN suelen tener muchas capas de convolución, por lo que este problema se agrava.
- Agrupación: las muchas capas convolucionales en las CNN generalmente se entrelazan con capas de agrupación, que toman el máximo de su campo receptivo (o, a veces, el promedio) y lo transmiten. Es bastante fácil ver cómo esta operación destruye la información de localización.
- ¿Cuál es la mejor manera de aprender algoritmos de inteligencia artificial para un principiante?
- ¿Qué tan relevante es el libro Inteligencia artificial: un enfoque moderno (AIMA), ahora que ha habido muchos avances en la máquina y el aprendizaje profundo?
- Si la IA ha alcanzado un nivel alto, ¿deberíamos ponerle grilletes?
- ¿Pueden los seres artificialmente inteligentes ser considerados humanos? ¿Por qué o por qué no?
- ¿Puede la IA volverse más inteligente que Dios (suponiendo que Dios exista)?