¿El aprendizaje profundo realmente funciona? ¿Es solo promocionado por los investigadores que es impulsado por los fabricantes de GPU?

En visión por computadora, sí, el aprendizaje profundo realmente funciona. Esto no es una conspiración de los fabricantes o investigadores de GPU (como un aparte, “es una conspiración” casi nunca es una respuesta).

En el desafío de detección de objetos VOC de PASCAL, que fue un punto de referencia muy bien establecido, bien regulado y extremadamente popular en el que las anotaciones del conjunto de prueba nunca se han publicado, estos son los números (más alto es mejor):
Mejor rendimiento no profundo: 40.9 (con o sin datos adicionales)
Rendimiento básico básico: 62,4
Esa es una mejora del 50%, en un campo donde una mejora del 10% se consideraba digna de publicación.

En el desafío de segmentación PASCAL VOC, que es igualmente bien considerado, el mejor rendimiento no profundo (más alto es mejor): 50.6, el mejor rendimiento profundo: 64.4.

En Imagenet Classification, nuevamente un desafío donde los datos de la prueba nunca se publicaron, en 2012, que fue el año decisivo, el algoritmo profundo más simple logró casi * la mitad * de la tasa de error del mejor algoritmo no profundo.

Como alguien que recientemente comenzó a trabajar en técnicas de aprendizaje profundo, me complacería disipar cualquier duda que pueda tener.

Además de dos ejemplos prácticos que Bharath Hariharan explicó, y las docenas que no lo hizo, hay alguna razón teórica de que no es un juego jugado por fabricantes o investigadores de GPU.

Durante muchos años, los investigadores lucharon con la mejor manera de representar los datos de entrada a un modelo para obtener los mejores resultados. Tenían que encontrar las mejores funciones codificadas a mano utilizando try y error.

En el aprendizaje profundo, la entrada son datos sin procesar, y el modelo tiene la capacidad de encontrar el mejor conjunto de características que describen los datos de entrada, independientemente de la tarea. No solo ahorra grandes cantidades de tiempo que se desperdicia en la búsqueda de características de forma manual, sino que también hace que las características sean de uso general (porque se hicieron con una técnica no supervisada, y el único propósito especial podría ser la arquitectura del modelo) y robusta (porque capturan propiedades del espacio de entrada).

Además, se puede demostrar que agregar una capa a un modelo hace que el modelo sea exponencialmente más poderoso. En el sentido de que necesitamos un número exponencial de parámetros para lograr la misma precisión sin agregar la nueva capa. Por lo tanto, las arquitecturas profundas son necesarias y cuanto más profundo sea su modelo, mejor predice (siempre que tenga suficientes datos para entrenar el modelo profundo).

Todo esto demuestra que el aprendizaje profundo y las arquitecturas profundas son esenciales y esa es la razón detrás de toda esta fiebre en esta área de investigación, no de fabricantes o investigadores de GPU.

PD 1: tenga en cuenta que algunas empresas y grupos de investigación no utilizan GPU para entrenar sus modelos profundos. Por ejemplo, Microsoft y Baidu están utilizando clústeres de CPU y hardware de compilación personalizado.

PD 2: Bharath Hariharan olvidó mencionar la última mejora en los resultados de ImageNet. Para obtener más información, consulte ¿Cuál es la precisión de vanguardia en la detección de objetos en ImageNet?

Sí. Funciona
Además de los diversos puntos de referencia, puedo testificar personalmente el hecho de que los algoritmos de Deep Learning aumentan la precisión por márgenes (a menudo locos). En ParallelDots utilizamos algoritmos tradicionales de PNL para nuestras tareas antes y estábamos luchando con baja precisión y ampliando las cosas. Luego pasamos a los algoritmos NLP basados ​​en Deep Learning.
Ganamos precisión y escalabilidad al mismo tiempo.

Sí, funciona muy bien en algunos casos. No será la solución universal a la IA. Pero solo mire las aplicaciones orientadas al consumidor: tenemos tiendas en línea que pueden recomendarle productos. Tenemos reconocimiento de voz de Apple, Microsoft, Google y Amazon. Tenemos sistemas de almacenamiento de fotos y podemos ordenar las imágenes según la cara de quién se ve. Los autos comienzan a ser capaces de conducir ellos mismos. Las máquinas bancarias pueden leer cheques escritos a mano. Tenemos MUCHOS éxitos.

Sin embargo, hay más que nuestra versión actual de aprendizaje automático no puede hacer. Entonces, ¿realmente funciona? Sí, en algunas cosas, no en otras cosas.

¿Qué no puede hacer el aprendizaje profundo? Una comparación simple: digamos que nunca has visto una mofeta. Puedo decirte que es un animal pequeño del tamaño de un gato doméstico que es todo negro, excepto por la franja blanca en la parte posterior. A partir de esto, podría identificar una mofeta, especialmente si también le mostré una buena foto de una mofeta. Un sistema de aprendizaje profundo necesitaría ser entrenado en mil o más fotos de una mofeta y nunca “entendería” nada sobre mofetas. Entonces, ¿funciona el aprendizaje profundo? Sí, ya que puede aprender a identificar a un zorrillo, pero no es tan bueno como nosotros. Entonces no, no funciona tan bien como nos gustaría.

La tecnología es tan útil que es probable que permanezca por mucho tiempo. Sin embargo, algo mejor casi seguramente llegará y suplantará el aprendizaje profundo.