Puede usar la imagen tal como está para la entrada de la red neuronal o puede usar un descriptor de imagen para la imagen usando características hechas a mano (como HOG, características de Haar de viola-jones) como un sustituto de la imagen de entrada si la imagen es considerablemente grande, digamos 200 x 200, ya que esto crea la necesidad de un gran número de nodos en la capa de entrada (400,000 en este caso).
Si elige alimentar la imagen de entrada tal como está en el ANN, considere usar una Red neuronal convolucional (CNN). Pero cuando use CNN, debe tener grandes cantidades de datos para aprender o ajustar los pesos de CNN pre-entrenados. El uso de CNN también requeriría considerables recursos computacionales.
Si las CNN no le parecen adecuadas para usted en función de la disponibilidad de datos o recursos computacionales, use características diseñadas a mano para obtener descriptores de características de imagen más cortos (un vector cuyo tamaño podría estar en el rango de 1000 a 10,000; claramente mejor que 400,000 ) de las imágenes de entrada y luego use una red neuronal de avance (también llamada perceptrón multicapa) en estas características diseñadas a mano.
- Cómo evaluar los mejores resultados posibles para un clasificador SVM
- ¿Qué significa realmente el valor semilla en el algoritmo de aprendizaje automático?
- ¿Cómo podemos hacer que las redes profundas funcionen de manera eficiente en dispositivos de baja potencia (por ejemplo, teléfonos)?
- Cómo calcular la precisión y recordar para la clasificación, donde ambas clases son igualmente importantes
- ¿Cómo funciona la selección de características bayesianas?
También puede reducir manualmente el tamaño de las imágenes utilizando recortes ajustados alrededor de las regiones faciales de las imágenes utilizando algoritmos de detección / localización de rostros. Esta técnica también reduce el número de nodos en la capa de entrada (no tanto como el uso de funciones hechas a mano, pero es una buena manera si desea apegarse a alimentar la imagen como es a un MLP) pero tendrá que asegurarse de todo las imágenes deben ser del mismo tamaño antes de comenzar el proceso de aprendizaje (¿quizás utilizando técnicas de relleno?).
Finalmente, el uso de imágenes en escala de grises para el reconocimiento facial es un tema discutible. Muchos son para eso, pero algunos sienten que la información del color de la piel, ojos, cabello y labios podría ser útil. Tradicionalmente, no era muy beneficioso cuando se usaban caras propias, etc. para el reconocimiento, pero especialmente cuando se usan CNN esto puede ser muy útil.