La visión por computadora es un área interesante ya que está cambiando muy rápido, es la razón por la que me encanta. Una cosa digna de mención es que puedo reformular su pregunta a “¿Cuál es el algoritmo de búsqueda de patrones documentado más avanzado?”. Hay varios investigadores en todo el mundo trabajando en cosas interesantes en el área y sus investigaciones no están documentadas en el momento de escribir este artículo.
Aquí se pueden considerar dos categorías:
- detección de objetos a nivel de instancia.
- reconocimiento de objetos a nivel de categoría.
Detección de objetos a nivel de instancia:
Los enfoques basados en características son lo último en tecnología aquí. Se basan principalmente en encontrar puntos de características localizables en imágenes como manchas y puntos de esquina. Cuando se encuentran tales características, se extrae un vector de dimensiones relativamente bajas llamado descriptor alrededor de cada punto de característica teniendo en cuenta la escala y la orientación del punto de característica.
- ¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?
- ¿Cómo se usa el aprendizaje automático en física?
- ¿Por qué el núcleo RBF (función de base radial) se asigna al espacio dimensional infinito, mencionado muchas veces en las conferencias de aprendizaje automático?
- Como principiante, ¿dónde y cómo aprendo a implementar algoritmos difíciles de aprendizaje profundo y otras técnicas similares en los lenguajes OOP?
- Cómo adaptar el filtrado colaborativo para un sistema de recomendación si solo tiene datos de compra a nivel de pedido y no datos a nivel de usuario
El problema de la correspondencia de puntos se resuelve mediante un proceso de coincidencia de características que hace coincidir las características observadas con la base de datos o las características del modelo y un conjunto de características consistentes con la identidad, posición, escala y orientación de un objeto en particular se determina mediante una transformación generalizada. Luego se ajusta un modelo matemático a la medición desde la observación hasta el modelo y viceversa, y los errores de reproyección se utilizan para determinar los valores internos y externos, esto se logra mediante un algoritmo llamado consenso aleatorio de muestra (RANSAC). Luego, un análisis detallado de probabilidad de inlier vs outlier determina si la hipótesis es válida o no. Esto da como resultado un sistema de reconocimiento de objetos de nivel de instancia invariante de traducción, escala y rotación.
Existe una variedad de características, pero algunas de las mejores documentadas son la transformación de características invariantes de escala y las características robustas aceleradas. Estos enfoques son excelentes para volver a detectar un patrón / objeto conocido en una escena desordenada del mundo real. Se pueden extender para reconocer objetos 3D, reconstruir escenas en representación 3D o seguimiento de movimiento para sistemas de realidad aumentada. Así en su categoría son reyes y reinas :).
Reconocimiento de objetos a nivel de categoría:
Teniendo en cuenta la dirección actual de las técnicas en el campo, las arquitecturas de aprendizaje profundo (DL) están superando al resto por algún margen. Dentro de la categoría DL, las redes neuronales convolucionales (CNN) son las mejores. Con los algoritmos actuales de reconocimiento de fotos de Google utilizando una técnica basada en CNN a gran escala. Es importante tener en cuenta que los algoritmos no están cerca de las habilidades cognitivas a nivel humano en esta área.
Las tasas de error son mucho mejores que los enfoques anteriores. Leí sobre las fotos de Google etiquetadas como negros como gorilas, esto se debe principalmente a que el sistema es joven con tasas de error que van del 17 al 37%. Aunque no es muy ofensivo teniendo en cuenta que es solo un error, la etiqueta “gorila” ha sido eliminada por Google.
DL se basa en un principio de agrupamiento jerárquico de características en características de nivel superior e superior. Esto se logra mediante un enfoque de retroalimentación para la propagación de señales a través de capas neurales con neuronas de nivel superior que se alimentan de una capa neural de nivel inferior. Al igual que una palabra que forma una oración, etc., esto hace que las neuronas de nivel superior sean detectores de características u objetos más descriptivos y potentes.
El problema con este enfoque es que tiene mucha hambre de ejemplos etiquetados durante el entrenamiento, ya que pasan de los datos de píxeles sin procesar a los resultados de nivel de categoría y, por lo tanto, pueden adaptarse fácilmente. Pero se utiliza un enfoque llamado abandono para relajar el sistema para que no se “emocione” demasiado. Otro problema es que la representación de la red neuronal es demasiado abstracta e impredecible la mayoría de las veces, es difícil recrear el éxito de otros con redes neuronales.
Conclusión:
Que yo sepa, los algoritmos mencionados anteriormente están documentados con tecnología de punta. Pero es aconsejable saber que no hay forma de conocer el estado actual de la técnica actual porque alguien o un grupo de investigadores pueden estar usando un algoritmo indocumentado.
Alguien puede estar al borde de un gran avance, mientras que muchos pueden estar entusiasmados con el aprendizaje profundo, algo podría aparecer en la imagen que hace que el aprendizaje profundo duerma con un ojo abierto.
Gracias por leer.