Cómo implementar el reconocimiento de imágenes para crear una aplicación para organizar imágenes

Desde mi limitado conocimiento, puedo sugerirle que use lo que se conoce como arquitectura siamesa. Los modelos de arquitectura siameses aprenden una representación de características latentes que agrupa imágenes similares donde usted define la similitud. En su caso, la similitud sería imágenes de la misma persona. Para otro caso, es posible que desee separar caras y casas en dos grupos, por lo que la similitud es la estructura de la cara en sí y la estructura de la casa. La misma idea se puede utilizar para la verificación de firma.

A continuación se muestra una representación de la arquitectura siamesa:

La similitud se encuentra usando esta representación oculta.

Aunque otras respuestas sugieren usar un modelo de aprendizaje profundo pre-entrenado y su vector de representación de espacio latente para encontrar una similitud, es posible que no obtenga la similitud que USTED desea. La representación del espacio latente es súper generalizada porque, a menudo, estos modelos se entrenan en el conjunto de datos ImageNet. Entonces la tarea es bastante diferente. Pero si realmente quieres aprovechar un modelo pre-entrenado, es muy simple convertir una red como VGG16 a una arquitectura siamesa.

Para implementar algo en estas líneas, puede llevarlo a cualquier lugar entre un par de días o un mes, dependiendo de su conjunto de datos, la infraestructura de aprendizaje profundo que tenga y su experiencia en el tema.

¡Espero que esto ayude!

aplicaciones móvilesAprendizaje automáticoAprendizaje profundoReconocimiento de imágenesReconocimiento de patronesRedes neuronales artificialesVisión por computadora

Related Content

¿Cuáles son algunos conjuntos de datos etiquetados disponibles públicamente que usan Kinect para su uso en la investigación de la visión por computadora?

¿Cómo está estudiando Conner Davis el aprendizaje automático?

MLconf 2015 Seattle: ¿Cuándo uso la normalización de varianza media / unidad cero frente a la normalización de unidad L1 / L2?

¿Cómo funciona la red de propuestas regionales (RPN) en Faster R-CNN?

¿Qué es el mecanismo de atención en redes neuronales?

¿Se pueden mezclar variables categóricas y continuas en una red neuronal simple?

¿Qué tan profundo es el aprendizaje profundo?

Si desea agrupar según la persona en la foto, necesitará algo que pueda detectar caras y luego etiquetar la cara como perteneciente a alguna persona. Por lo tanto, está buscando algo similar a las cascadas HAAR [1] y algo que pueda resolver el problema de YaleFaces [2] (las CNN son populares. Sin embargo, existen otras técnicas).

En caso de que no desee eso y solo desee agrupar según la similitud, puede usar SOM o Kmeans para hacerlo [3] [4] [5].

Este no es un problema simple, por lo que tendrá que escribir un poco de código usted mismo.

Notas al pie

[1] Detección de rostros usando cascadas Haar

[2] Página de inicio de reconocimiento facial – Bases de datos

[3] Segmentación de imagen en color basada en mapas autoorganizados con clustering de k-medias y mapa de prominencia

[4] http://thesai.org/Downloads/IJAR …

[5] https://arxiv.org/pdf/1206.0104.pdf

Shashwat Verma

Puede usar redes neuronales profundas previamente entrenadas para obtener el “vector de características” que generalmente tiene alrededor de 2000 dimensiones.

Este vector de características captura todo el significado semántico de la imagen y puede usarse para medir la similitud entre imágenes.

Las imágenes anteriores son de Introducción a la búsqueda de similitud en Flickr, donde muestran cómo ellos (Yahoo Research) han implementado una función de fotos similares en Flickr utilizando DNN.

Puede usar davidsandberg / facenet para incrustaciones preformadas para caras.

Pero aquí es posible que no conozca el número de grupos (número de personas) para el agrupamiento, por lo tanto, puede decidir un umbral de similitud (puede ser coseno) y decir que dos fotos son de la misma persona si la similitud entre dos fotos es menos del umbral

Puede usar el siguiente código para obtener similitud entre dos vectores.

desde scipy import espacial

img1_embed = [3, 45, 7, 2]
img2_embed = [2, 54, 13, 15]
similitud = 1 – spatial.distance.cosine (img1_embed, img2_embed)

Shashwat Verma

More Interesting

En el aprendizaje profundo, ¿son el "aprendizaje incremental" y el "aprendizaje de transferencia" el mismo enfoque?

¿Puedo usar word2vec para hacer el análisis de co-palabras?

¿Cómo aprendió Ajit Rajasekharan tanta PNL?

¿Cómo se hizo Andrew Ng tan bueno en Machine Learning?

En la mayoría de los entrenamientos de precisión de CNN, ¿por qué la precisión de validación no aumenta suavemente en lugar de con tantas ondas?

¿Es posible verificar manualmente si los vectores de soporte siguen hiperplanos teóricos en SVM usando un núcleo de base radial?

¿El aprendizaje profundo hará que otros algoritmos de aprendizaje automático sean obsoletos?

¿Cuáles son los componentes básicos del reconocimiento de voz desde el punto de vista DSP?

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

¿Por qué los CNN son mejores en clasificación que los RNN?

¿Cómo utiliza Google el aprendizaje automático?

¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?

¿Cuáles son algunos temas de investigación matemáticamente rigurosos en aprendizaje automático y aprendizaje profundo en la actualidad?

¿Cuál es la diferencia entre hash y minhashing sensibles a la localidad?

¿Qué título debo tomar para entrar en la investigación de Deep Learning? (Graduado de CS)

Web Analytics