¿Cuál es el algoritmo de búsqueda de patrones (o reconocimiento de patrones) más avanzado? ¿Como funciona?

La visión por computadora es un área interesante ya que está cambiando muy rápido, es la razón por la que me encanta. Una cosa digna de mención es que puedo reformular su pregunta a “¿Cuál es el algoritmo de búsqueda de patrones documentado más avanzado?”. Hay varios investigadores en todo el mundo trabajando en cosas interesantes en el área y sus investigaciones no están documentadas en el momento de escribir este artículo.

Aquí se pueden considerar dos categorías:

  1. detección de objetos a nivel de instancia.
  2. reconocimiento de objetos a nivel de categoría.

Detección de objetos a nivel de instancia:

Los enfoques basados ​​en características son lo último en tecnología aquí. Se basan principalmente en encontrar puntos de características localizables en imágenes como manchas y puntos de esquina. Cuando se encuentran tales características, se extrae un vector de dimensiones relativamente bajas llamado descriptor alrededor de cada punto de característica teniendo en cuenta la escala y la orientación del punto de característica.

El problema de la correspondencia de puntos se resuelve mediante un proceso de coincidencia de características que hace coincidir las características observadas con la base de datos o las características del modelo y un conjunto de características consistentes con la identidad, posición, escala y orientación de un objeto en particular se determina mediante una transformación generalizada. Luego se ajusta un modelo matemático a la medición desde la observación hasta el modelo y viceversa, y los errores de reproyección se utilizan para determinar los valores internos y externos, esto se logra mediante un algoritmo llamado consenso aleatorio de muestra (RANSAC). Luego, un análisis detallado de probabilidad de inlier vs outlier determina si la hipótesis es válida o no. Esto da como resultado un sistema de reconocimiento de objetos de nivel de instancia invariante de traducción, escala y rotación.

Existe una variedad de características, pero algunas de las mejores documentadas son la transformación de características invariantes de escala y las características robustas aceleradas. Estos enfoques son excelentes para volver a detectar un patrón / objeto conocido en una escena desordenada del mundo real. Se pueden extender para reconocer objetos 3D, reconstruir escenas en representación 3D o seguimiento de movimiento para sistemas de realidad aumentada. Así en su categoría son reyes y reinas :).

Reconocimiento de objetos a nivel de categoría:

Teniendo en cuenta la dirección actual de las técnicas en el campo, las arquitecturas de aprendizaje profundo (DL) están superando al resto por algún margen. Dentro de la categoría DL, las redes neuronales convolucionales (CNN) son las mejores. Con los algoritmos actuales de reconocimiento de fotos de Google utilizando una técnica basada en CNN a gran escala. Es importante tener en cuenta que los algoritmos no están cerca de las habilidades cognitivas a nivel humano en esta área.

Las tasas de error son mucho mejores que los enfoques anteriores. Leí sobre las fotos de Google etiquetadas como negros como gorilas, esto se debe principalmente a que el sistema es joven con tasas de error que van del 17 al 37%. Aunque no es muy ofensivo teniendo en cuenta que es solo un error, la etiqueta “gorila” ha sido eliminada por Google.

DL se basa en un principio de agrupamiento jerárquico de características en características de nivel superior e superior. Esto se logra mediante un enfoque de retroalimentación para la propagación de señales a través de capas neurales con neuronas de nivel superior que se alimentan de una capa neural de nivel inferior. Al igual que una palabra que forma una oración, etc., esto hace que las neuronas de nivel superior sean detectores de características u objetos más descriptivos y potentes.

El problema con este enfoque es que tiene mucha hambre de ejemplos etiquetados durante el entrenamiento, ya que pasan de los datos de píxeles sin procesar a los resultados de nivel de categoría y, por lo tanto, pueden adaptarse fácilmente. Pero se utiliza un enfoque llamado abandono para relajar el sistema para que no se “emocione” demasiado. Otro problema es que la representación de la red neuronal es demasiado abstracta e impredecible la mayoría de las veces, es difícil recrear el éxito de otros con redes neuronales.

Conclusión:

Que yo sepa, los algoritmos mencionados anteriormente están documentados con tecnología de punta. Pero es aconsejable saber que no hay forma de conocer el estado actual de la técnica actual porque alguien o un grupo de investigadores pueden estar usando un algoritmo indocumentado.

Alguien puede estar al borde de un gran avance, mientras que muchos pueden estar entusiasmados con el aprendizaje profundo, algo podría aparecer en la imagen que hace que el aprendizaje profundo duerma con un ojo abierto.

Gracias por leer.

Usaría el coeficiente de correlación para el reconocimiento matemático de patrones numéricos. O podría sumar el error absoluto entre dos grupos de números y elegir la mejor coincidencia. Al usar el valor absoluto del error total de la suma, se obtiene el error total, ya que algunos valores pueden ser negativos y positivos. En lugar de usar el cuadrado del error, que podría ser bastante pequeño. Cuadrar un pequeño número puede causar problemas.
En alfabético, puede contar el número de palabras o coincidencias de caracteres hacia adelante. Entonces tendrías que elegir según el recuento total de partidos.

Puede ordenar los datos del patrón de prueba por orden (clasificación rápida) y encontrarlo de esa manera, ya que una coincidencia rápida sería luego continuar la prueba para subir o bajar en la entrada de datos de prueba. También podría limitar el espacio de búsqueda eliminando cualquier número de salida.
Una búsqueda binaria se resolvería bastante rápido.
Con una cantidad muy pequeña de pruebas computacionales.
Ejemplo:
Si estuviera probando el porcentaje de crecimiento de un valor de acciones dado, digamos para 1 año de datos, y buscando una coincidencia anterior para algún marco de coincidencia de tiempo anterior, se resolvería bastante rápido. Podrías calcular la mejor coincidencia para que coincidan los datos y también encontrar el porcentaje estimado de crecimiento “estimado” a lo largo del tiempo como una proyección hacia adelante. Puede probar también para múltiples ocurrencias.
Cuantas más veces ocurra esto, la lógica indica que las probabilidades son más altas que ocurrirá nuevamente. Utilizo la palabra “estimar” para darte una pista, ya que eso es lo que podría ser.
Llámalo SWAG (Scientific Wild Ass Guess).

¿Más avanzado como en complicado? o como bueno en rendimiento o como fácil de entender?
Sin embargo, la respuesta de Chomba Bupe es un buen lugar para comenzar. También diría que los métodos de aprendizaje profundo son buenos reconocedores de patrones, al menos en el campo de la visión por computadora.

Entonces, si no me equivoco, querrá buscar en Google googles en la coincidencia de patrones para determinar los números de las imágenes. Puede que este no sea el más avanzado en todas las áreas, pero al menos al extraer números de las imágenes es probablemente el mejor y es bastante interesante. En cuanto a cómo funciona, no puedo ayudarlo allí, pero me arriesgaré a suponer que si está familiarizado con esa área de investigación, es probable que tenga dificultades para comprender algo más que un alto nivel de cómo funciona.

Aquí hay un enlace sobre el método para colocar donde las direcciones se basan en imágenes. No estoy seguro de si se trata de cómo procesa los números de las calles de las imágenes, pero si lo hace, será algo que le interese.
Patente US8688368 – Localización basada en imágenes para direcciones

También aquí hay un enlace a la patente de Google sobre coincidencia de patrones biométricos.
Patente US8379982 – Sistema y método para la comparación rápida de patrones biométricos

More Interesting

¿Cómo califica Kaggle los envíos?

En una red neuronal, ¿cómo podemos resolver (o limitar) el problema de la saturación de las neuronas?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

¿Qué son las redes neuronales convolucionales?

En el análisis de sentimientos, ¿cómo son útiles los datos etiquetados por humanos para extraer características y capacitar a los clasificadores en el enfoque de aprendizaje automático?

¿Cuáles son todas las formas en que Quora usa el procesamiento del lenguaje natural (PNL)?

¿Cómo desarrollar una intuición para diseñar nuevos algoritmos?

¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?

¿Qué es la enseñanza profunda?

¿Dónde puedo encontrar algunas empresas que trabajen con técnicas de aprendizaje automático y minería de datos, en el campo biomédico?

Cómo medir el rendimiento de aprendizaje en Q-Learning

¿El aprendizaje automático es el futuro del mundo de la programación?

¿Cuáles son las principales conferencias sobre inteligencia artificial, procesamiento del lenguaje natural y aprendizaje automático?

¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?