¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

Acabo de terminar de leer el periódico. Sí. Fue el trabajo original de Geoffrey Hinton et al que se desempeñó muy por encima de la tasa de clasificación con una precisión del 37,5% para la prueba top-5 y del 17% para la prueba top-1. Es decir, el algoritmo tiene que clasificar la imagen en solo 5 oportunidades o 1 oportunidad. Además, si mira el documento, puede ver dos características importantes discutidas en el aprendizaje profundo. La forma en que se capacitó a la red para datos a gran escala utilizando GPU y los parámetros utilizados para ajustar el modelo. El artículo final concluye que a medida que aumenta el número de capas convolucionales, la tasa de error disminuyó significativamente. Esto fue algo notable pero también computacionalmente costoso. Ahora hay una idea. El documento solo discutió sobre la computación paralela utilizando máquinas GPU. Este es muy caro. ¿Qué sucede si podemos distribuir usando digamos (enfoque basado en reducción de mapas) y luego procesar datos en varias máquinas? Un tema digno de investigación. También estoy planeando explorar esta área. 🙂

  1. Habla sobre AlexNet, una red que superó a otros métodos por un margen significativo en el desafío ILSVRC 2012, en una tarea muy difícil como la clasificación de imágenes. Después de este gran éxito, convNets comenzó a extenderse exponencialmente en la comunidad de visión por computadora.
  2. AlexNet usó algunas de las recetas ahora “estándar” en el aprendizaje profundo, como las unidades ReLU y la deserción (editar: aunque fueron presentadas por otros documentos primero).

De acuerdo con las dos respuestas anteriores. Además, el problema de clasificación de imágenes es el problema básico en la visión por computadora, y está muy relacionado con otras tareas de visión por computadora, tales como localización de objetos, detección de objetos, segmentación de objetos, etc. El modelo diseñado para otras tareas se modifica a partir de los modelos de clasificación de imágenes de última generación, como VGGNet, GoogLeNet, ResNet, etc. La característica aprendida por CNN es genérica, lo que significa que una vez que el modelo obtuvo un gran rendimiento en la tarea de clasificación de imágenes, este modelo también puede funcionar en otras tareas.

Fue el primer trabajo de aprendizaje profundo que mostró el rendimiento más avanzado en una tarea real de visión por computadora, y lo hizo con un gran margen sobre los otros algoritmos.

Vea los resultados aquí: Concurso de reconocimiento visual a gran escala ImageNet 2012 (ILSVRC2012), el nombre del grupo de aprendizaje profundo es SuperVision.

Después de esto, todos, en cada competencia de visión, comenzaron a usar el aprendizaje profundo.