¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

Acabo de terminar de leer el periódico. Sí. Fue el trabajo original de Geoffrey Hinton et al que se desempeñó muy por encima de la tasa de clasificación con una precisión del 37,5% para la prueba top-5 y del 17% para la prueba top-1. Es decir, el algoritmo tiene que clasificar la imagen en solo 5 oportunidades o 1 oportunidad. Además, si mira el documento, puede ver dos características importantes discutidas en el aprendizaje profundo. La forma en que se capacitó a la red para datos a gran escala utilizando GPU y los parámetros utilizados para ajustar el modelo. El artículo final concluye que a medida que aumenta el número de capas convolucionales, la tasa de error disminuyó significativamente. Esto fue algo notable pero también computacionalmente costoso. Ahora hay una idea. El documento solo discutió sobre la computación paralela utilizando máquinas GPU. Este es muy caro. ¿Qué sucede si podemos distribuir usando digamos (enfoque basado en reducción de mapas) y luego procesar datos en varias máquinas? Un tema digno de investigación. También estoy planeando explorar esta área. 🙂

¿Cuál es la mejor opción, Machine Learning o codificación?

¿Debo ir por TensorFlow o PyTorch?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

¿Hay alguna debilidad en el uso de la agrupación máxima y la agrupación promedio?

¿Qué afecta el grosor / delgadez de un teléfono?

¿Existe alguna teoría o tecnología informática inventada en la Unión Soviética?

Habla sobre AlexNet, una red que superó a otros métodos por un margen significativo en el desafío ILSVRC 2012, en una tarea muy difícil como la clasificación de imágenes. Después de este gran éxito, convNets comenzó a extenderse exponencialmente en la comunidad de visión por computadora.
AlexNet usó algunas de las recetas ahora “estándar” en el aprendizaje profundo, como las unidades ReLU y la deserción (editar: aunque fueron presentadas por otros documentos primero).

Hao Zhang

De acuerdo con las dos respuestas anteriores. Además, el problema de clasificación de imágenes es el problema básico en la visión por computadora, y está muy relacionado con otras tareas de visión por computadora, tales como localización de objetos, detección de objetos, segmentación de objetos, etc. El modelo diseñado para otras tareas se modifica a partir de los modelos de clasificación de imágenes de última generación, como VGGNet, GoogLeNet, ResNet, etc. La característica aprendida por CNN es genérica, lo que significa que una vez que el modelo obtuvo un gran rendimiento en la tarea de clasificación de imágenes, este modelo también puede funcionar en otras tareas.

Hao Zhang

Fue el primer trabajo de aprendizaje profundo que mostró el rendimiento más avanzado en una tarea real de visión por computadora, y lo hizo con un gran margen sobre los otros algoritmos.

Vea los resultados aquí: Concurso de reconocimiento visual a gran escala ImageNet 2012 (ILSVRC2012), el nombre del grupo de aprendizaje profundo es SuperVision.

Después de esto, todos, en cada competencia de visión, comenzaron a usar el aprendizaje profundo.

Hao Zhang

More Interesting

¿Apache Spark es un buen marco para implementar Reinforcement Learning?

¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

¿Hay alguna anomalía inexplicable en la codificación de la computadora que pueda sugerir que las máquinas tienen alma?

¿De qué maneras incorpora Snapchat el aprendizaje automático?

Cómo crear una representación jerárquica de un conjunto de objetos usando una red neuronal

Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?

Si no escalo las características antes de aplicar el descenso de gradiente, ralentizará la convergencia, pero ¿puede cambiar los resultados?

¿Qué es una explicación intuitiva para PCA?

Cómo comenzar con el aprendizaje de múltiples núcleos