Ciencia empírica, en su mayoría.
La neurociencia es poco conocida y 99% opaca, y sin embargo, los médicos, inventores y científicos han mejorado la neuromedicina y la cirugía dramáticamente a pesar de no tener una comprensión teórica completa de cómo funciona el cerebro. Lo mismo puede decirse de la medicina, la nutrición y la gastronomía (ciencia de los alimentos) también.
- ¿Cuáles son las características importantes para el análisis de sentimientos basado en aspectos en el enfoque de aprendizaje automático? ¿Qué algoritmos se pueden usar para extraer estas características?
- ¿Cómo debo elegir entre convertirme en un desarrollador de JavaScript de pila completa o un ingeniero de aprendizaje automático?
- ¿Se puede colocar un previo en el hiperparámetro de un modelo bayesiano jerárquico?
- El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?
- Support Vector Machines: ¿Cómo elijo un parámetro de escala de kernel?
El cirujano anterior no tiene idea de cómo funciona el cerebro, pero aún puede arreglar a una persona.
La investigación de Machine Learning, especialmente en torno a redes neuronales, es muy parecida. Los investigadores toman su experiencia e intuiciones interdisciplinarias y cualquier entrenamiento matemático que tengan, y lo usan para adivinar cómo se comportarían estos sistemas complejos si modificaran esto o aquello.
A menudo, estas suposiciones son correctas, a pesar de que el investigador podría no tener una comprensión completa de abajo hacia arriba de por qué tenían razón. Por ejemplo, no creo que el cambio de covarianza sea la única historia detrás del aprendizaje de representaciones profundas (Aceleración del entrenamiento de redes profundas al reducir el cambio de covariables interno). Sin embargo, la técnica funciona bien y con el tiempo deberíamos esperar que la teoría se complete a medida que la ciencia empírica progresa más.
Este enfoque de “disparar en la oscuridad” nos permite beneficiarnos inmediatamente de técnicas que tienen una base teórica adecuada , pero que en la actualidad son demasiado complejas para deducirlas matemáticamente.
Puede pensar en la investigación del aprendizaje automático (no solo en redes neuronales, sino también en otros métodos como SVM, modelos gráficos bayesianos, etc.) como un algoritmo de metaoptimización que intenta inferir cómo resolver problemas de aprendizaje automático. La entrada al algoritmo meta-opt es el conocimiento pasado de problemas de problemas de aprendizaje automático (por ejemplo, conjuntos de problemas de pregrado, investigación de doctorado). Deep Learning es como un método estocástico de primer orden (p. Ej., Descenso de gradiente estocástico) que realmente no comprende completamente el panorama de la metaoptimización, pero toma pasos ruidosos que aún nos llevan a lugares útiles. Así es como tiende la ciencia empírica: los investigadores deambulan de forma irregular, haciendo todo lo posible para adivinar a dónde ir después. A veces adivinamos mal, pero finalmente descubrimos la verdad.
Si el aprendizaje profundo es el “descenso de gradiente estocástico” de Machine Learning Research, entonces los métodos basados en la teoría son más parecidos al “método de Netwon”, donde saltas más rápidamente a la “solución óptima” al saber algo sobre la curvatura cuadrática local del sistema.
Este es un enfoque más basado en principios y a veces es útil para “quedar atascado”, pero necesita hacer mucho más trabajo para resolverlo. Si nos limitamos a modelos teóricamente entendidos:
- Google Translate sería una mierda
- La investigación en neurociencia computacional estaría estancada en redes aleatorias
- AlphaGo no hubiera sido posible
- Todos los motores de búsqueda tendrían una calidad sustancialmente peor
Lo bueno de la ciencia empírica es que nos dan información sobre si nuestras hipótesis son inválidas, lo que nos permite descartar grandes porciones del espacio explicativo de búsqueda.