¿Cuáles son los éxitos recientes en IA además del aprendizaje profundo? La tecnología cambia la vida futura

Bien, gracias por el A2A.

Bueno, a partir de ahora hay mucha investigación en la dirección del aprendizaje profundo, tanto que casi todos los trabajos recientes tratan sobre mejoras en los sistemas de aprendizaje profundo. Es comprensible que se haya prestado mucha atención al aprendizaje profundo debido a su naturaleza escalable y al hecho de que el aprendizaje se realiza directamente en datos sin procesar.

Por lo tanto, la fuerza del aprendizaje profundo está en 3 atributos:

Escalabilidad
Aprendizaje automático de funciones
Representación jerárquica

Con la escalabilidad, el aprendizaje profundo puede escalar de acuerdo con el tamaño de los datos y su rendimiento mejoraría en consecuencia. En contraste, la mayoría de los algoritmos de aprendizaje automático no escalan tan bien. Este es un atributo poderoso y atractivo, especialmente en esta era de la información, donde los datos son muy abundantes.

El aprendizaje automático de características significa que el aprendizaje profundo puede usarse como un sistema de aprendizaje de caja negra sin que uno conozca los algoritmos subyacentes. Esto es muy poderoso ya que es posible resolver problemas complejos sin siquiera comprender el problema. También significa que en la visión por computadora no tenemos que diseñar funciones para resolver problemas relacionados con la visión.

El aprendizaje de características jerárquicas es otro atributo que hace que el aprendizaje profundo sea muy poderoso. Las características se aprenden de tal manera que representan los datos de manera más abstracta y de manera insensible al ruido u otras distorsiones. Esto hace posible que el sistema de aprendizaje profundo resuelva problemas complejos que son difíciles de visualizar o comprender por los humanos.

Ahora la discusión anterior es algo que casi cualquier persona familiarizada con el aprendizaje profundo ya sabe. La pregunta en sí es solicitar nuevos desarrollos. Tenga en cuenta que esto no es auto marketing, ya que yo era A2A, sentí que es una oportunidad para discutir algo con lo que he estado jugando.

He estado investigando en visión durante casi 7 años y hasta ahora he construido un sistema de visión en tiempo real de última generación. Así es como funciona, en la visión todavía hay un desafío en la detección en tiempo real de objetos en entornos muy desordenados, por lo que mi trabajo, que no es público, se ha centrado en:

Tiempo real
Robustez
Escalabilidad
Aprendizaje automático de funciones
Representación jerárquica
Transferencia de aprendizaje

El primer sistema de visión que construí fue un sistema de visión basado en características y requería que creara características a mano. Por lo tanto, diseñé e implementé un detector de características muy rápido y robusto que realmente realiza detectores harris corner, SURF y SIFT. Para finalizar el sistema de visión, diseñé un descriptor llamado M3oh para hacer coincidir las regiones sobresalientes detectadas con una base de datos. El resultado fue BIMOR, abreviatura de reconocimiento de objetos con motivación biológica. Este sistema es rápido y funciona en tiempo real y es bueno para SLAM, AR, VR, SFM y cosido panorámico automático. Todavía estoy usando BIMOR en mis aplicaciones móviles de visión por computadora.

Ahora, con el tiempo, me topé con el aprendizaje profundo y sabía que no podría competir en este campo porque no tengo una supercomputadora para ejecutar sistemas de aprendizaje profundo a gran escala, solo investigo en una escala bastante pequeña en realidad aprendizaje profundo y dejando el trabajo pesado a Facebook, Google y Microsoft. Por lo tanto, para aprovechar el poder del aprendizaje profundo sin la necesidad de máquinas súper potentes, necesitaba un ecualizador, un cambio de juego. Mencioné las cualidades deseables anteriores del aprendizaje profundo que quería conservar, pero descarté las indeseables, como la necesidad de enormes cantidades de poder de procesamiento durante el aprendizaje y la gran cantidad de neuronas necesarias.

Luego construí lo que llamo IRIS, abreviatura de sistema integrado de reconocimiento e inferencia. IRIS está destinado a reconocer objetos y recuperar sus ubicaciones 3D en tiempo real, todo al mismo tiempo que es escalable. El sistema IRIS también puede hacer un aprendizaje de una sola vez.

La intuición detrás de IRIS es que va en círculos de reconocimiento e inferencia, cuanto más círculos, más abstracta se vuelve su representación. Esto es equivalente a un sistema de aprendizaje profundo solo que IRIS tiene una profundidad variable en lugar de una profundidad fija como en los sistemas normales de aprendizaje profundo. La profundidad de IRIS es el número de círculos de reconocimiento-inferencia que atraviesa para analizar estímulos complejos como los estímulos visuales.

Creo que el cerebro humano funciona de la misma manera, pasa por círculos de reconocimiento e inferencia para evaluar y sacar conclusiones de los estímulos. Es una técnica muy poderosa porque el sistema puede evaluar una imagen y extraer detalles finos, todo al mismo tiempo robusto y rápido. La profundidad variable del sistema significa que se adapta al problema en cuestión, no todos los problemas requieren redes poco profundas al igual que no todos los problemas requieren redes muy profundas.

Con esta intuición simple, hice un experimento rápido en el conjunto de datos MNIST y obtuve una precisión del 99.18%, no está mal para una prueba rápida. Ahora estoy implementando completamente el sistema IRIS completo y lo vuelvo a ejecutar en el conjunto de datos MNIST. El sistema realmente hizo eso sin aumento de datos y otras técnicas de preprocesamiento. La prueba rápida logró una precisión del 97.0% solo del aprendizaje utilizando alrededor de 200 ejemplos en el conjunto de datos MNIST. Cuando se implemente el sistema completo, informaré los resultados y posiblemente publique algo, pero no es una promesa.

Ahora estoy trabajando para terminar el sistema IRIS y construir un sistema de intérprete de lenguaje de señas en tiempo real para usarlo.

Hasta donde sé, ninguna investigación ha experimentado con sistemas de aprendizaje profundo o de profundidad variable, IRIS es el primero de su tipo. Lo cuento como un avance en la IA, aunque todavía no es público.

No dude en comentarme o corregirme. Estoy aquí para aprender.

EDITAR:

IRIS en realidad no es un sistema de aprendizaje profundo, pero se puede ver como uno si se presenta como un sistema de aprendizaje profundo de profundidad variable.

Espero que esto ayude.