¿Hay buenos libros / artículos científicos sobre el problema de la capacidad de interpretación del aprendizaje automático (cajas negras, haciendo de las redes neuronales una caja blanca)?

Un par de documentos que conozco son:

https://papers.nips.cc/paper/546…

[1311.2901] Visualización y comprensión de redes convolucionales

El primero de estos artículos se centra en la extracción de reglas comprensibles por un experto en dominios en biología molecular. Al principio, la metodología parece bastante general, pero luego los autores hacen un par de aproximaciones necesarias para hacer que el problema sea manejable, lo que disminuye la generalidad del enfoque. Sin embargo, creo que es un buen comienzo. El segundo artículo se centra realmente en el reconocimiento de imágenes y, por lo tanto, tiene un alcance limitado para ese dominio.

En general, la forma más directa de interpretar las redes neuronales es simplemente como una regresión no lineal complicada porque, en cierto sentido, eso es exactamente lo que son. El problema es que, a diferencia de una regresión lineal donde los coeficientes de las diferentes variables de entrada pueden interpretarse como la “fuerza” de su asociación con la variable de salida, en una regresión no lineal, ese ya no es el caso por una simple razón. Imagine una regresión no lineal de la forma:

z = 2 * x / (1 + 1000 * y ^ 2)

cuando y es suficientemente pequeño yx es O (1), y prácticamente no tiene influencia sobre el valor de z. Por otro lado, si y es O (1) yx es O (1), entonces el comportamiento de z está esencialmente determinado por y. Extienda esta simple observación a la complejidad de una red neuronal y el problema es evidente: el valor exacto de los pesos sinápticos o los sesgos no siempre es un indicador de la importancia de las variables de entrada a las que están asociadas.