El uso más interesante del aprendizaje automático (ML) que he visto es el reconocimiento o categorización de imágenes, siempre me ha fascinado cómo funciona la visión y la complejidad de la comprensión de la escena. Al igual que un robot que puede navegar e interactuar con su entorno con facilidad, por supuesto, la visión está en gran medida sin resolver, pero los productos como las fotos de Google que pueden clasificar las imágenes automáticamente es bastante impresionante.
La visión es una hazaña muy compleja de lograr incluso por el sistema de visión humana (HVS), que es un área del cerebro muy altamente especializada dedicada exclusivamente al procesamiento de estímulos visuales y que ocupa aproximadamente 1/4 del total, aproximadamente 10 o 100 mil millones de neuronas. en el cerebro. Eso por sí solo muestra cuán complejo es el procesamiento visual porque la mayoría de las neuronas cerebrales nos ayuda a interpretar los estímulos visuales en comparación con otros sentidos, como el habla. Es por eso que la visión es tan fascinante y por eso es tan interesante jugar con algoritmos de ML que pueden reconocer o interpretar escenas visuales.
Hay otras áreas interesantes de aplicaciones como el reconocimiento de voz en aplicaciones como el asistente de Google en el turrón de Android o Google Now para el sistema operativo Android más antiguo, la precisión con la que estos sistemas reconocen el habla es realmente impresionante.
- ¿Por qué se usan computadoras en los aeropuertos?
- ¿Cómo se puede comenzar una investigación independiente en informática?
- Cómo generar todos los números primos de un número dentro de un rango
- ¿El aprendizaje automático es tan bueno como los datos que se presentan? En caso afirmativo, ¿se puede eliminar esta dependencia?
- ¿Cuál es una breve explicación de la diferencia entre circuitos combinacionales y secuenciales?
Otra área de aplicación de ML que puede pasarse por alto fácilmente es la compresión de imagen / video, estoy seguro de que los autoencoders se harán cargo de esta área en el corto plazo si aún no lo han hecho. K-SVD, una generalización de la conocida agrupación de k-means, se puede utilizar para construir un diccionario de características que se pueden combinar linealmente para aproximar otras señales en el mismo dominio, por lo que se puede aplicar como una técnica de compresión para imágenes / video para que se reduzca el requisito de ancho de banda de un sistema de transmisión de video. Esto es bastante sorprendente en sí mismo, por lo que YouTube no hubiera sido posible sin dichos algoritmos de compresión (aunque no estoy seguro de qué técnicas de compresión reales se utilizan en YouTube).
Espero que esto ayude.