¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

Cuando nos referimos a los modelos como recuadros negros, generalmente nos referimos a la dificultad de rastrear una predicción a partir de qué características son importantes. Aunque las matemáticas utilizadas para construir una red neuronal son sencillas, esto no es lo mismo que entender cómo se llegó a la salida. Si una multitud de neuronas ‘interactúan’ de formas complejas para producir el resultado final, a pesar de que la construcción de una sola neurona es obvia, no se puede saber exactamente cómo se desarrolló todo una vez que el algoritmo se soltó en los datos.

Esto no es solo para el aprendizaje profundo. Incluso las redes neuronales poco profundas se consideran cajas negras, ya que comprender cómo se llegó a la salida final es extremadamente difícil. Algunos practicantes intentarán mostrar el ‘camino’ que fue tomado por una red neuronal identificando todas las conexiones ponderadas entre los nodos, pero típicamente las redes neuronales se usan exclusivamente por su poder predictivo en lugar de sus débiles habilidades explicativas.

La verdad es que esto no es solo para modelos aprendidos por redes neuronales y SVM (otro enfoque de “caja negra”). Todo el aprendizaje automático opera en dimensiones superiores a las que la mente humana puede visualizar directamente , oscureciendo para siempre cómo la heurística de un algoritmo llegó a su destino final. También es muy difícil tratar de vincular la intuición a los parámetros de un modelo.

La discusión sobre las cajas negras en el aprendizaje automático se reduce a la interpretabilidad de un modelo y a cómo definir ese término. Recomiendo leer el artículo de Leo Brieman que compara los modelos de datos utilizados por los estadísticos y los modelos algorítmicos utilizados por los practicantes de aprendizaje automático. Brieman discute la relación entre predicción e interpretabilidad. Otra gran lectura es un artículo de Zachary Lipton llamado The Mythos of Model Interpretability, donde el autor habla sobre la definición del término interpretabilidad y lo que eso significa para los modelos considerados “caja negra”.

Recientemente resumí esos 2 artículos y discutí las implicaciones para Data Science en esta pregunta de Quora.

¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?

Muchas empresas hablan de 'big data' y 'aprendizaje profundo', y siempre ponen estas etiquetas en sus productos. ¿Cuál es el verdadero significado detrás de esto?

¿Cuáles son algunas aplicaciones de muestreo de importancia en Deep Learning?

Cómo explicar la diferencia entre RPCA y PCA

¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros?

¿Qué ventajas tienen las matemáticas mayores que recién comienzan a estudiar la programación en comparación con la especialización CS?

En cierto sentido, son una caja negra. Por ejemplo, aquí está el diagrama esquemático de AlexNet, el modelo ganador en el desafío ImageNet 2012:

Ahora todos los números que ve en el diagrama son hiperparámetros esencialmente ajustables . ¿Cómo encuentra los valores óptimos, o incluso los buenos valores que funcionan bien para una tarea determinada? ¿Qué sucede si elige un determinado conjunto de valores para el hiperparámetro y no ofrecen un buen rendimiento?
En técnicas como SVM, puede analizar los parámetros de su modelo (alfa) para ver si el hiperparámetro de regularización es demasiado alto o demasiado bajo.
Pero con la red anterior, tiene 60 millones de parámetros del modelo. ¿Cómo los analizas?

Entonces, la conclusión es que los no expertos que intentan utilizar el aprendizaje profundo en problemas no convencionales probablemente tendrán dificultades para que funcione mejor que otras técnicas.

En segundo lugar, se sabe que la función objetivo de las redes neuronales no es convexa, y solo puede llegar a un óptimo local utilizando métodos de optimización de tiempo finito. Por lo tanto, sabe que para muchos problemas, termina llegando a un óptimo local. Y no hay resultados sobre cuán bueno o malo es este óptimo local comparado con el óptimo global. La razón principal es que, si bien las funciones de capa individuales son simples como usted señala, componerlas varias veces da lugar a funciones extremadamente complejas que son prácticamente imposibles de investigar matemáticamente. Esta extrema complejidad de las funciones resultantes es lo que hace que el aprendizaje profundo sea tan poderoso empíricamente y, al mismo tiempo, las hace menos susceptibles al análisis teórico.

(Parte del contenido tomado de la respuesta de Prasoon Goyal a ¿Por qué las personas se oponen tanto a las redes neuronales / CNN / técnicas de aprendizaje profundo, y existen alternativas para identificar objetos en imágenes que alcanzan la misma velocidad y precisión?)

Bobby Polzer

No soy un experto como Sean McClure, y veo la pregunta (y la respuesta de Sean) como una cuestión principalmente filosófica. Bajo un punto de vista pragmático orientado a la identificación del modelo (que quizás sea una degradación en la clase de nuestra querida área de aprendizaje profundo (DL) 🙂) hay modelos parametrizados disponibles y modelos no parametrizados (o caja negra – BB).

Los modelos BB surgen cuando se desconoce la “física” del problema o se conoce (más o menos) pero la cantidad de parámetros es enorme.

El aprendizaje profundo, con su herramienta de “red neuronal” (NN), es claramente una técnica basada en BB. El NN “encaja” en muchos tipos de problemas que se le presentan, en diversas áreas. Me parece que elegir el número de capas y, en general, definir la arquitectura de la NN para un problema dado NO se considera como parametrizar el modelo, aunque hay algo de conocimiento (empírico, en su mayoría) que indica que algunos tipos de NN son más eficiente para algunas clases de problemas que otras.

Para finalizar, solo enfatizo que las matemáticas simples (funciones de activación sigmoidea) no están correlacionadas con la naturaleza BB de DL. La naturaleza BB surge del hecho de que el mismo modelo (NN) se utiliza para encontrar “patrones” en los datos, independientemente de dónde provienen los datos y de qué proceso físico, biológico, económico u otro, produjo los datos. En mi humilde opinión, por supuesto …

Bobby Polzer

Porque es en el sentido de que una red de aprendizaje profundo tiene más o menos capas ocultas. Estas capas son como su nombre lo dice oculto. Si funciona, uno no está necesariamente interesado en los procesos de las capas ocultas; están en una “caja” y realizan un procesamiento para finalmente pasar los resultados a una capa de salida.

Sean McClure

More Interesting

¿Cuándo debo usar la similitud de coseno? ¿Se puede usar para agrupar?

Estoy creando una plataforma de transmisión en vivo: ¿cómo puedo conectarme y usar varias cámaras web al mismo tiempo?

¿Cuáles son las funcionalidades clave que debe tener una biblioteca NLP mínima?

En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?

¿Vale la pena seguir una maestría en aprendizaje automático de NCSU? ¿Es una mejor opción solo por el triángulo de investigación?

¿Cuál es la diferencia entre los pronósticos de combinación y conjunto?

¿Qué es SVM latente en el aprendizaje automático? ¿Cómo es diferente de SVM normal (caso binario)?

¿Hay alguna trampa en los recientes anuncios de Microsoft e IBM sobre los avances en el reconocimiento de voz?

¿Cómo se hace el cambio de C ++ a Python? Me siento más cómodo con C ++ y lo he estado usando para hacer la mayor parte de mi programación; Me parece que lleva mucho tiempo y Python hace las cosas rápidamente. ¿Cuál es la mejor manera de hacer el cambio?

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?