Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático? La tecnología cambia la vida futura

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

Ciencia empírica, en su mayoría.

La neurociencia es poco conocida y 99% opaca, y sin embargo, los médicos, inventores y científicos han mejorado la neuromedicina y la cirugía dramáticamente a pesar de no tener una comprensión teórica completa de cómo funciona el cerebro. Lo mismo puede decirse de la medicina, la nutrición y la gastronomía (ciencia de los alimentos) también.

El cirujano anterior no tiene idea de cómo funciona el cerebro, pero aún puede arreglar a una persona.

La investigación de Machine Learning, especialmente en torno a redes neuronales, es muy parecida. Los investigadores toman su experiencia e intuiciones interdisciplinarias y cualquier entrenamiento matemático que tengan, y lo usan para adivinar cómo se comportarían estos sistemas complejos si modificaran esto o aquello.

A menudo, estas suposiciones son correctas, a pesar de que el investigador podría no tener una comprensión completa de abajo hacia arriba de por qué tenían razón. Por ejemplo, no creo que el cambio de covarianza sea la única historia detrás del aprendizaje de representaciones profundas (Aceleración del entrenamiento de redes profundas al reducir el cambio de covariables interno). Sin embargo, la técnica funciona bien y con el tiempo deberíamos esperar que la teoría se complete a medida que la ciencia empírica progresa más.

Este enfoque de “disparar en la oscuridad” nos permite beneficiarnos inmediatamente de técnicas que tienen una base teórica adecuada , pero que en la actualidad son demasiado complejas para deducirlas matemáticamente.

Puede pensar en la investigación del aprendizaje automático (no solo en redes neuronales, sino también en otros métodos como SVM, modelos gráficos bayesianos, etc.) como un algoritmo de metaoptimización que intenta inferir cómo resolver problemas de aprendizaje automático. La entrada al algoritmo meta-opt es el conocimiento pasado de problemas de problemas de aprendizaje automático (por ejemplo, conjuntos de problemas de pregrado, investigación de doctorado). Deep Learning es como un método estocástico de primer orden (p. Ej., Descenso de gradiente estocástico) que realmente no comprende completamente el panorama de la metaoptimización, pero toma pasos ruidosos que aún nos llevan a lugares útiles. Así es como tiende la ciencia empírica: los investigadores deambulan de forma irregular, haciendo todo lo posible para adivinar a dónde ir después. A veces adivinamos mal, pero finalmente descubrimos la verdad.

Si el aprendizaje profundo es el “descenso de gradiente estocástico” de Machine Learning Research, entonces los métodos basados en la teoría son más parecidos al “método de Netwon”, donde saltas más rápidamente a la “solución óptima” al saber algo sobre la curvatura cuadrática local del sistema.

Este es un enfoque más basado en principios y a veces es útil para “quedar atascado”, pero necesita hacer mucho más trabajo para resolverlo. Si nos limitamos a modelos teóricamente entendidos:

Google Translate sería una mierda
La investigación en neurociencia computacional estaría estancada en redes aleatorias
AlphaGo no hubiera sido posible
Todos los motores de búsqueda tendrían una calidad sustancialmente peor

Lo bueno de la ciencia empírica es que nos dan información sobre si nuestras hipótesis son inválidas, lo que nos permite descartar grandes porciones del espacio explicativo de búsqueda.

Aprendizaje automáticoinformáticaRedes neuronales artificiales