Colorización: agregar color a las imágenes en blanco y negro
Una de las aplicaciones recientes de las redes neuronales ha sido resolver el problema de la coloración. Es decir, dada una imagen de entrada en escala de grises (blanco y negro), genera una imagen en color.
- ¿Cuál es la plataforma de IA más fácil de aprender hoy?
- ¿Cuáles son algunos de los mejores algoritmos de IA para juegos de 2 jugadores como Ultimate Tic Tac Toe?
- ¿Hay alguna base de datos que dé resultados basados en la entrada de voz?
- ¿Se automatizará la ciencia de datos en un futuro cercano?
- ¿Quiero crear una herramienta de reconocimiento de escritura a mano con red neuronal usando MATLAB?
Créditos de imagen: Richard Zhang
Este es un problema interesante, porque 2 imágenes que son idénticas en todos los aspectos, excepto su color, pueden producir la misma imagen en escala de grises cuando se promedian sus valores de píxeles.
Por lo tanto, dada una imagen en escala de grises, no existe un mapeo simple y directo entre un píxel atenuado y 3 píxeles de colores únicos. Entonces, para la misma imagen en escala de grises, podemos producir múltiples imágenes en color, todas las cuales pueden no parecer las más naturales, pero cuando se convierten a escala de grises producirán la imagen en blanco y negro de entrada.
Por lo tanto, no era posible agregar color a las imágenes simplemente por transformaciones matemáticas, se necesitaba la intervención humana para verificar qué combinaciones de colores parecían las más naturales. Esto se ha resuelto entrenando redes neuronales profundas para aprender qué combinaciones de colores son las mejores y cómo las imágenes en escala de grises se pueden convertir en imágenes en color.
Agregar sonido a videos silenciosos
Créditos de imagen: MIT News
Otra aplicación interesante de las redes neuronales profundas ha sido la adición de sonido a videos silenciosos, basados en el contenido del video. Por lo general, los humanos agregan artificialmente efectos de sonido en las películas. Esto se puede automatizar ahora con la llegada de NN profundos.
Esto me parece un problema interesante porque muestra que la semántica capturada dentro de los píxeles realmente supera lo que imaginamos. Sí, como humanos, generalmente tenemos cierta intuición sobre el sonido que debe acompañar un video silencioso para obtener el efecto deseado. Pero el hecho de que esto pueda ser calculado eficientemente por una máquina muestra que podría haber información útil codificada en varios otros lugares que aún tenemos que utilizar.