Principalmente, hay tres enfoques para el reconocimiento de patrones:
- Trucos de visión por computadora: transformación de Hough, detección de bordes de Canny, SIFT, AAM, etc., son algunos modelos matemáticos para trabajar con imágenes.
- Redes neuronales: puede usar redes neuronales tradicionales para la coincidencia de patrones. El desafío es que no escalan bien con grandes conjuntos de datos.
- Redes profundas / CNN: las redes neuronales convolucionales parecen ser las mejores en tareas de reconocimiento de imágenes. Puede usar CNN multicapa apilados unos sobre otros. LeNet, GoogLeNet, AlexNet, etc. son algunas arquitecturas de referencia que puede ver.
Curiosamente, el libro de Goodfellow que estoy leyendo tiene un cuadro como este:
- ¿Cuáles son algunos conjuntos de datos sin resolver que son los objetivos de la investigación actual de Deep Learning?
- ¿Qué funciona mejor: Autoencoder Variacional o Redes Adversarias Generativas?
- ¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?
- ¿Cuáles son las especificaciones de la computadora utilizada para la red neuronal convolucional?
- Cómo integrar el marco Tensorflow con XGBoost
Como puede ver, Deep Learning ha demostrado ser un enfoque innovador para el problema de identificación de imágenes. Una ventaja importante de usar DL es que la parte de extracción de características está incorporada. No necesita realizar la extracción y selección de funciones, ya que la red aprende las funciones simplemente procesando datos.