¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

Esta es, quizás, la primera oración más frecuente en un resumen donde el artículo se refiere a CNN.

La visión por computadora depende en gran medida de las características extraídas de las imágenes y la visión por computadora sin CNN significaba características hechas a mano que casi siempre son subóptimas y no eficientes para crear en primer lugar. Las CNN están revolucionando en el sentido de que se está convirtiendo en un campo plug-n-play. Las características se aprenden automáticamente siempre que pueda plantear bien el problema, configurar bien la arquitectura, etc.

Hay cosas que distinguen a los expertos de los principiantes: (las fronteras de la revolución en CV)

1. Cómo lidiar con datos limitados en una imagen de alta dimensión, por ejemplo, 1k imágenes de dimensionalidad 256x512x512 (sí, esto es posible y las imágenes son tomografías computarizadas)

2. Cómo implementar modelos a escala con el rendimiento de un conjunto pero el tamaño de un solo modelo (compresión del modelo – Geoff Hinton)

3. Cómo garantizar la seguridad de modo que el sistema CV desarrollado basado en CNN se implemente en aplicaciones vitales, por ejemplo, Autosteer en el piloto automático de Tesla (% 1 MSE en dirección de dirección no es seguro, Tesla afirma% 0.0001)

4. Incruste una teoría relativamente nueva e inmadura en los productos, por ejemplo, GAN (las GAN todavía son bebés, en su mayoría entrenamiento inestable para entrenamiento fuera de lo común; sin embargo, cada nuevo artículo encuentra una forma relativamente nueva de estabilizarlos para usarlos en otra aplicación más. Ver iGAN , Wasserstein GAN, PPGAN)

Por supuesto, la pregunta principal es ¿por qué las imágenes y la visión por computadora? Porque es la aplicación más próxima de dichos modelos y ya tienen un gran impacto en el mundo real. Por supuesto, crear un gato a partir de bocetos como hace GAN últimamente para disfrutar de las personas no es la causa principal. Imagina grabar películas enteras con caras de personas reales sin siquiera configurar un set de producción. La película se establecería en la ‘nube’ donde las GPU dibujarán películas. Da un poco de miedo pensar que los límites son el cielo.