¿Cuál es el mejor enfoque sin supervisión para la recuperación de imágenes mediante el aprendizaje profundo?

Dejando a un lado la locura profunda con la tendencia de las personas que intentan utilizar el aprendizaje profundo para cualquier problema, vale la pena admitir lo siguiente:

Durante mucho tiempo, el uso del aprendizaje profundo en forma de redes neuronales convolucionales no ha logrado competir bien con las características de ingeniería humana ‘clásicas’ en el área de recuperación de imágenes.

Esto surgió de múltiples razones:

  • La recuperación de imágenes es un campo de investigación ‘más pequeño’ en comparación con la clasificación de imágenes o la detección de objetos. Conduciendo a un ritmo general más pequeño.
  • La solución de vainilla de tomar una red pre-entrenada en imagenet, no funcionó lo suficientemente bien en comparación con los documentos clásicos como el tamizado de raíz. Debido a que las características que aprendió eran en su mayoría adecuadas para hacer una clasificación entre clases y no características de aprendizaje que permitían encontrar detalles de clase fina de grano fino. Para ilustrar: un modelo entrenado en imagenet puede encontrar una buena diferencia entre una persona y un plátano, pero los modelos entrenados disponibles probablemente no serán buenos para encontrar personas específicas que tengan una barba especial porque no es una característica importante que permita tener éxito en imagenet .
  • La recuperación de la imagen que funcionó bien recurrió al uso de múltiples ‘trucos’ que les permitieron aumentar el rendimiento. La mayoría de los trabajos de investigación estudian una técnica única y usarla sola no permitió un gran impulso en el rendimiento. Las técnicas destacadas son la estimación robusta del desorden, la expansión de consultas y el aumento de las características del lado de la base de datos.

Recientemente, a fines de 2016, vi el primer artículo que realmente logró usar una red neuronal convolucional que venció a los algoritmos de ingeniería humana de vanguardia por un amplio margen. Ha tenido éxito al identificar y resolver lo anterior:

  • Los autores afinaron un modelo entrenado en imagenet con el propósito de recuperar imágenes.
  • Utilizaron una gran cantidad de herramientas (como las mencionadas anteriormente) en un solo sistema para mejorar el rendimiento general.

Usted puede leer sobre ello aquí. Así que ahora el aprendizaje profundo es el estado del arte aquí también … 🙂

Tiene la idea correcta, almacene las imágenes como vectores espaciales y luego use la similitud del coseno o la distancia euclidiana para verificar qué tan cerca está.

Los vecinos más cercanos también se usan comúnmente para este propósito.

Puedes probar los DCGAN también. Son muy buenos para desenredar factores de variación.

Si ya conoce la clase de la imagen que desea recuperar, los resultados son aún mejores si proporciona un vector de codificación en caliente para las clases y la entrada.