¿La red de Google realmente se enseñó a reconocer gatos en un mar de imágenes aleatorias?

El modelo de red neuronal utilizado en este estudio es muy jerárquico y es capaz de aprender más y más patrones abstractos basados ​​en la composición de las representaciones intermedias de los módulos de niveles inferiores al ir más arriba en los niveles de la arquitectura de redes neuronales apiladas:

  1. El módulo en el primer nivel generalmente puede aprender detectores de borde similares a los filtros Gabor (http://en.wikipedia.org/wiki/Gab…). Este tipo de representaciones se pueden encontrar sea cual sea la naturaleza de las imágenes naturales alimentadas como entrada al primer módulo.
  2. La segunda capa puede codificar representaciones para formas simples como un segmento de una línea recta, una curva, un punto … Esas representaciones dependen más de la naturaleza de las imágenes alimentadas como entrada al primer módulo.
  3. Cuando se entrena en un conjunto de datos que incluye caras de personas y automóviles, el tercer nivel encontrará representaciones muy dependientes de datos de bloques de construcción, como parte de una nariz, un ojo, una barbilla … o una rueda, la forma de la parte delantera o trasera de un coche…
  4. Las unidades (también conocidas como neuronas) de módulos de niveles aún más altos generalmente se activarán al máximo cuando la entrada del primer nivel es una imagen canónica de una cara frontal (ya que se encontraron humanos o gatos en este conjunto de datos).

Por lo tanto, es capaz de “simplemente” encontrar patrones a partir de imágenes, pero la naturaleza de los patrones que el sistema aprendió a extraer (¡sin ningún tipo de supervisión!) En el nivel superior son muy abstractos y parecen coincidir con conceptos semánticos de alto nivel como un humano o un gato se enfrentan el 80% del tiempo. El sistema ha encontrado la estructura del conjunto de datos de entrenamiento y fue capaz de construir su propia representación abstracta de compresión por sí mismo.