Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

Ciencia empírica, en su mayoría.

La neurociencia es poco conocida y 99% opaca, y sin embargo, los médicos, inventores y científicos han mejorado la neuromedicina y la cirugía dramáticamente a pesar de no tener una comprensión teórica completa de cómo funciona el cerebro. Lo mismo puede decirse de la medicina, la nutrición y la gastronomía (ciencia de los alimentos) también.

El cirujano anterior no tiene idea de cómo funciona el cerebro, pero aún puede arreglar a una persona.

La investigación de Machine Learning, especialmente en torno a redes neuronales, es muy parecida. Los investigadores toman su experiencia e intuiciones interdisciplinarias y cualquier entrenamiento matemático que tengan, y lo usan para adivinar cómo se comportarían estos sistemas complejos si modificaran esto o aquello.

A menudo, estas suposiciones son correctas, a pesar de que el investigador podría no tener una comprensión completa de abajo hacia arriba de por qué tenían razón. Por ejemplo, no creo que el cambio de covarianza sea la única historia detrás del aprendizaje de representaciones profundas (Aceleración del entrenamiento de redes profundas al reducir el cambio de covariables interno). Sin embargo, la técnica funciona bien y con el tiempo deberíamos esperar que la teoría se complete a medida que la ciencia empírica progresa más.

Este enfoque de “disparar en la oscuridad” nos permite beneficiarnos inmediatamente de técnicas que tienen una base teórica adecuada , pero que en la actualidad son demasiado complejas para deducirlas matemáticamente.

Puede pensar en la investigación del aprendizaje automático (no solo en redes neuronales, sino también en otros métodos como SVM, modelos gráficos bayesianos, etc.) como un algoritmo de metaoptimización que intenta inferir cómo resolver problemas de aprendizaje automático. La entrada al algoritmo meta-opt es el conocimiento pasado de problemas de problemas de aprendizaje automático (por ejemplo, conjuntos de problemas de pregrado, investigación de doctorado). Deep Learning es como un método estocástico de primer orden (p. Ej., Descenso de gradiente estocástico) que realmente no comprende completamente el panorama de la metaoptimización, pero toma pasos ruidosos que aún nos llevan a lugares útiles. Así es como tiende la ciencia empírica: los investigadores deambulan de forma irregular, haciendo todo lo posible para adivinar a dónde ir después. A veces adivinamos mal, pero finalmente descubrimos la verdad.

Si el aprendizaje profundo es el “descenso de gradiente estocástico” de Machine Learning Research, entonces los métodos basados ​​en la teoría son más parecidos al “método de Netwon”, donde saltas más rápidamente a la “solución óptima” al saber algo sobre la curvatura cuadrática local del sistema.

Este es un enfoque más basado en principios y a veces es útil para “quedar atascado”, pero necesita hacer mucho más trabajo para resolverlo. Si nos limitamos a modelos teóricamente entendidos:

  • Google Translate sería una mierda
  • La investigación en neurociencia computacional estaría estancada en redes aleatorias
  • AlphaGo no hubiera sido posible
  • Todos los motores de búsqueda tendrían una calidad sustancialmente peor

Lo bueno de la ciencia empírica es que nos dan información sobre si nuestras hipótesis son inválidas, lo que nos permite descartar grandes porciones del espacio explicativo de búsqueda.

Eric Jiang ha escrito una respuesta integral, pero hay un punto de aclaración que me gustaría agregar. Creo que su pregunta surge de un malentendido de “opaco” en este contexto.

Cuando describimos los NN como opacos o como un “recuadro negro”, no queremos decir que el proceso se entienda mal. Los expertos saben exactamente cómo funcionan sus algoritmos NN y tienen ideas muy informadas sobre cómo mejorarlos para un espacio problemático dado.

Lo que se entiende poco es el proceso de razonamiento real que está sucediendo bajo el capó de la NN. Cuando le muestro un árbol de decisión y le explico cómo funciona, puede ver fácilmente cómo la computadora está tomando su decisión. Es legible por humanos. Si observa un NN, es solo una gran pila de ruido incomprensible … en principio, puede rastrearlo para ver la decisión, pero es completamente intuitivo de leer.

Esta es una de las principales limitaciones de un enfoque NN. Tiene un valor limitado para fomentar la comprensión humana de un problema. No es un buen candidato para el descubrimiento del conocimiento.

¿Cómo puede obtener un mejor rendimiento de su modelo de aprendizaje profundo?

Es una de las preguntas más comunes que me hacen.

Se podría preguntar como:

¿Cómo puedo mejorar la precisión?

… o puede revertirse como:

¿Qué puedo hacer si mi red neuronal funciona mal?

A menudo respondo con “ No sé exactamente, pero tengo muchas ideas.

Luego procedo a enumerar todas las ideas que puedo pensar que podrían dar un impulso en el rendimiento.

En lugar de escribir esa lista nuevamente, he decidido poner todas mis ideas en esta publicación.

Las ideas no solo lo ayudarán con el aprendizaje profundo, sino que realmente cualquier algoritmo de aprendizaje automático.