La aparición de una jerarquía de características es el resultado de la forma en que se presentan las CNN. No es una coincidencia.
- Casi por definición, los conceptos de nivel superior se manifiestan con una mayor resolución espacial (por ejemplo, en el caso de las imágenes) o temporal (en el caso del habla). No espera identificar una cara en un parche de 3 × 3 píxeles, a lo sumo puede obtener un borde orientado arbitrariamente. A medida que profundiza en las capas de una CNN, aumenta el campo receptivo de una sola neurona. Una neurona más profunda está “viendo” un área más grande de la imagen de entrada o una sección más grande de una señal de voz.
- Además, más o menos por definición, un concepto de nivel superior es uno que se define por encima de los conceptos de nivel inferior. Las letras se combinan para formar palabras, que se combinan para formar frases, que se combinan para formar oraciones. Las paredes se combinan para formar habitaciones, que se combinan para formar planos de planta, que se combinan para formar edificios, etc. Se obtiene una curva elíptica cuando combina una cadena de bordes de orientaciones que varían suavemente; y luego algunas curvas de este tipo podrían combinarse para darle un “ojo” o una “nariz”, y pocas de esas “partes” podrían combinarse para darle una cara. Nuevamente, los CNN están diseñados por diseño de tal manera que la capa kth activa las capas th (k-1). Por lo tanto, la aparición de tales jerarquías de características no es accidental.