¿Cómo entrenamos redes neuronales en imágenes en lugar de datos numéricos?

Puede usar la imagen tal como está para la entrada de la red neuronal o puede usar un descriptor de imagen para la imagen usando características hechas a mano (como HOG, características de Haar de viola-jones) como un sustituto de la imagen de entrada si la imagen es considerablemente grande, digamos 200 x 200, ya que esto crea la necesidad de un gran número de nodos en la capa de entrada (400,000 en este caso).

Si elige alimentar la imagen de entrada tal como está en el ANN, considere usar una Red neuronal convolucional (CNN). Pero cuando use CNN, debe tener grandes cantidades de datos para aprender o ajustar los pesos de CNN pre-entrenados. El uso de CNN también requeriría considerables recursos computacionales.

Si las CNN no le parecen adecuadas para usted en función de la disponibilidad de datos o recursos computacionales, use características diseñadas a mano para obtener descriptores de características de imagen más cortos (un vector cuyo tamaño podría estar en el rango de 1000 a 10,000; claramente mejor que 400,000 ) de las imágenes de entrada y luego use una red neuronal de avance (también llamada perceptrón multicapa) en estas características diseñadas a mano.

También puede reducir manualmente el tamaño de las imágenes utilizando recortes ajustados alrededor de las regiones faciales de las imágenes utilizando algoritmos de detección / localización de rostros. Esta técnica también reduce el número de nodos en la capa de entrada (no tanto como el uso de funciones hechas a mano, pero es una buena manera si desea apegarse a alimentar la imagen como es a un MLP) pero tendrá que asegurarse de todo las imágenes deben ser del mismo tamaño antes de comenzar el proceso de aprendizaje (¿quizás utilizando técnicas de relleno?).

Finalmente, el uso de imágenes en escala de grises para el reconocimiento facial es un tema discutible. Muchos son para eso, pero algunos sienten que la información del color de la piel, ojos, cabello y labios podría ser útil. Tradicionalmente, no era muy beneficioso cuando se usaban caras propias, etc. para el reconocimiento, pero especialmente cuando se usan CNN esto puede ser muy útil.

Advertencia: reconocer caras es difícil .

Debe mirar la base de datos clásica de MNIST (vea la base de datos de dígitos escritos a mano MNIST, Yann LeCun, Corinna Cortes y Chris Burges) que se utilizó para reconocer los dígitos escritos a mano. Esto es mucho más fácil, aunque no es trivial.

Parte de su problema puede ser que dé por sentado lo fácil que es para los humanos reconocer rostros. Como es fácil para usted hacerlo, es posible que haya llegado a la conclusión errónea de que una red neuronal puede hacerlo con la misma facilidad.

Sí, esa es una de las ventajas de las redes neuronales; puede usar grandes datos, como imágenes, como entrada.

Es posible que desee aislar las caras y normalizar el tamaño y, si es posible, eliminar el fondo antes del entrenamiento. De lo contrario, la red neuronal se entrenará para distinguir las imágenes por la información de fondo en lugar de las caras.

More Interesting

¿Pandora graba cuando en la canción presiono saltar, pulgar arriba o pulgar abajo?

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados ​​en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

Quiero aprender el procesamiento del lenguaje natural en CMU. ¿Es mejor tomarlo como un estudiante de CS o tomarlo como un estudiante de lingüística (como una electiva)?

¿Mi reproductor de caja de ritmo aprendió qué canción tocar a continuación?

¿Hay tutoriales o trabajos de investigación sobre la presentación de problemas matemáticos como pseudolenguaje al algoritmo de PNL?

¿Qué métricas debo usar para evaluar un modelo generativo cuantitativamente y qué tan confiables son?

¿Qué tipo de empresas necesitan / necesitarán ingenieros de Machine Learning?

¿Cuál es la parte más lenta del método SVM?

Cómo evaluar la reciente eliminación de recomendaciones para usar hilo dental

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

Dado que los modelos pueden ser entrenados en datos sintéticos, ¿podemos usar el Entrenamiento Adversario para hacer que las imágenes de prueba sean más sintéticas?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de degradado por lotes?

¿Cuál es el mejor algoritmo para la extracción de características en imágenes?

Mi experiencia con el rendimiento de las capacidades NLP de IBM Watson fue mala. ¿Como estuvo el tuyo?

¿Quién es la estrella en ascenso de la IA fuera del aprendizaje profundo?