Estoy trabajando en el reconocimiento facial con redes neuronales convolucionales, ¿cuántas convoluciones y capas ocultas debo usar?

Gracias por el A2A.

Con los años, el aprendizaje profundo ha experimentado grandes transformaciones y ha establecido el estado del arte en gran cantidad de tareas de visión y lenguaje.

Particularmente en redes, varios grandes grupos de investigación han llevado a cabo una gran cantidad de experimentos para definir arquitecturas de línea base de plantilla para diversas tareas.

Todos los esfuerzos de investigación posteriores han tratado de construir sobre estos modelos para mejorar aún más los sistemas.

Considere, por ejemplo, la clasificación ha involucrado desde el ahora aparentemente fácil LeNet de Bengio en la década de 1990 hasta AlexNet hasta Inception Net hasta Inception ResNet.

Por lo tanto, el estado del arte actual para la mayoría de las aplicaciones son arquitecturas complejas que han evolucionado a través de múltiples iteraciones que abarcan varios años. Entonces, en lugar de tratar de crear una arquitectura propia, sugiero pasar por el siguiente ciclo

  1. Lea mucha de la literatura más importante de las últimas conferencias recientes después de 2014 o 15. Concéntrese en CVPR ICCV ECCV. Aquí es donde es más probable que encuentres las mejores obras. Aquí hay una colección de algunos trabajos de aprendizaje profundo para el reconocimiento facial
  2. Intenta entender su pensamiento y arquitecturas. Intenta reproducir sus resultados. Si está enfocado en simplemente desplegar el trabajo, esto debería estar decentemente bien.
  3. Si usted es del tipo investigador, trate de pensar en formas en que podría mejorar estos sistemas y realizar experimentos. Esto debería ser bueno para comenzar.

La mejor de las suertes.

Esto depende totalmente del algoritmo que esté utilizando, aunque en general solo intentaría jugar con él en un conjunto de datos que sea representativo pero lo suficientemente pequeño como para que no tenga que esperar demasiado tiempo para obtener resultados prohibitivos. Si mal no recuerdo, he visto CNN 2,3 y 4 capas para esta tarea con buena frecuencia, aunque puede haber sido en algunos sistemas de dominio específico. Además, si lo desea, puede usar Neuroph como una forma divertida y muy simple de intentar hacer esto, pero obviamente esto es solo un juguete y no debe usarse para implementaciones significativas.

Puede intentar obtener una impresión inicial revisando la arquitectura de VGG-Face

¿Qué algoritmo estás usando? AdaBoost, por ejemplo, funciona bien con tres capas ocultas.