¿Cuáles son las innovaciones clave en el documento ‘Evolución a gran escala de clasificadores de imágenes’ de Google Brain?

Desde un punto de vista algorítmico , este es un algoritmo genético relativamente estándar sin cruzamiento. Cada vez que se crea un nuevo individuo, se lo entrena para un número fijo de iteraciones y se lo devuelve a la población. Un punto interesante es que los pesos entrenados se mantienen tanto como sea posible entre los individuos: por ejemplo, es posible que una descendencia sea igual a uno de los padres, solo entrenados por un tiempo más largo. Los operadores de mutación están altamente personalizados para redes convolucionales (de ahí el enfoque en “clasificadores de imagen” en el título). El segundo punto interesante aquí es que las mutaciones pueden agregar nuevas capas o aumentar el tamaño de las circunvoluciones, básicamente sin ningún límite.

Creo que el punto clave del documento se puede resumir de la siguiente manera: si escala el algoritmo lo suficiente (es decir, días de entrenamiento en cientos de computadoras), los algoritmos evolutivos pueden coincidir más o menos con las arquitecturas diseñadas por humanos en CIFAR . El bit crucial es que esto se obtiene a partir de clasificadores lineales ; en principio, podría aplicar el algoritmo sin ningún ajuste fino a cualquier problema de clasificación de imágenes, y obtendría una red neuronal completamente entrenada apropiada para la tarea. Esto es bueno porque incluso con rutinas de vanguardia para la optimización de hiperparámetros (por ejemplo, optimización bayesiana) siempre hay un alto grado de conocimiento experto involucrado en la personalización de la arquitectura de red.

A continuación se muestra una de las partes más interesantes del documento (Fig. 1):

Los puntos azules son los individuos que comprenden una población durante las últimas etapas de la evolución. El gráfico de la derecha es uno de los individuos con mejor desempeño: puede ver que su arquitectura es realmente bastante compacta en comparación con las redes de vanguardia. Lo que significa que, incluso si el algoritmo tiene un espacio de búsqueda ilimitado, converge en arquitecturas relativamente pequeñas. Supongo que esto se debe a la cantidad fija de entrenamiento permitida a cada individuo: el algoritmo necesita encontrar arquitecturas que sean robustas para el entrenamiento en poco tiempo, lo que no es cierto para las redes “enormes”.