¿Qué aspectos del aprendizaje automático teórico y aplicado requieren una formación formal en qué subdisciplinas de las matemáticas y / o estadísticas?

Personalmente, no entiendo la pregunta sobre la distinción entre teoría y ML aplicada. Hay cosas que entiendes y cosas que no. Luego hay cosas que has escuchado pero que realmente no sabes nada al respecto y, por lo tanto, son teóricas. Retrospectivamente, puedo decir que, como he pasado tiempo en este campo, comencé a comprender conceptos y luego terminé aplicando esos conceptos … conceptos que pensé que eran teóricos.

Michael Jordon le hizo una pregunta similar en su reciente reunión de reddit …

Personalmente, no hago la distinción entre estadística y aprendizaje automático en la que su pregunta parece estar basada.
También rara vez me resulta útil distinguir entre teoría y práctica; su interacción ya es profunda y solo aumentará a medida que los sistemas y problemas que consideramos se vuelvan más complejos.
Piense en el problema de ingeniería de construir un puente. Hay toda una cadena alimenticia de ideas desde la física hasta la ingeniería civil que le permite a uno diseñar puentes, construirlos, dar garantías de que no se caerán bajo ciertas condiciones, sintonizarlos a entornos específicos, etc., etc. Sospecho que existen pocas personas involucradas en esta cadena que no hacen uso de “conceptos teóricos” y “conocimientos de ingeniería”. Tomó décadas (siglos realmente) para que todo esto se desarrollara.
De manera similar, las ecuaciones de Maxwell proporcionan la teoría detrás de la ingeniería eléctrica, pero ideas como la adaptación de impedancias se enfocaron cuando los ingenieros comenzaron a aprender cómo construir tuberías y circuitos. Esas ideas son tanto teóricas como prácticas.
Tenemos un desafío similar: ¿cómo tomamos ideas inferenciales centrales y las convertimos en sistemas de ingeniería que pueden funcionar bajo cualquier requisito que uno tenga en mente (tiempo, precisión, costo, etc.), que reflejen suposiciones que sean apropiadas para el dominio, que sean claros sobre qué inferencias y qué decisiones se tomarán (si se desean causas, predicciones, selección de variables, selección de modelos, clasificación, pruebas A / B, etc.) pueden permitir interacciones con humanos (aportes de conocimiento experto, visualización, personalización, privacidad, cuestiones éticas, etc., esa escala, que son fáciles de usar y robustas. De hecho, con el debido respeto a los constructores de puentes (y constructores de cohetes, etc.), pero creo que aquí tenemos un dominio que es más complejo que cualquier otro que se haya enfrentado en la sociedad humana.
No sé cómo llamar al campo general que tengo en mente aquí (está bien usar “ciencia de datos” como marcador de posición), pero el punto principal es que la mayoría de las personas que conozco que fueron capacitadas en estadística o en máquina el aprendizaje se entendía implícitamente como trabajar en este campo general; no dicen “No me interesan los principios que tienen que ver con la aleatorización en la recopilación de datos, o con la forma de fusionar datos, o con la incertidumbre en mis predicciones, o con la evaluación de modelos, o con la visualización”. Sí, trabajan en subconjuntos del problema general, pero ciertamente son conscientes del problema general. Las diferentes colecciones de personas (sus “comunidades”) a menudo tienden a tener diferentes dominios de aplicación en mente y eso hace que algunos de los detalles de su trabajo actual se vean superficialmente diferentes, pero no hay una distinción intelectual subyacente real, y muchas de las aparentes distinciones son históricas accidentes
También debo estar en desacuerdo con su frase “métodos más directos en el ámbito del aprendizaje automático”. No tengo idea de lo que esto significa, o podría significar. A lo largo de los años ochenta y noventa, fue sorprendente la cantidad de veces que las personas que trabajan dentro de la “comunidad ML” se dieron cuenta de que sus ideas habían tenido una larga historia previa en las estadísticas. Árboles de decisión, vecino más cercano, regresión logística, núcleos, PCA, correlación canónica, modelos gráficos, medias K y análisis discriminante, y también muchos principios metodológicos generales (por ejemplo, método de momentos, que está teniendo un mini renacimiento, bayesiano métodos de inferencia de todo tipo, estimación M, bootstrap, validación cruzada, ROC y, por supuesto, descenso de gradiente estocástico, cuya historia previa se remonta a los años 50 y más allá, y muchas herramientas teóricas (grandes desviaciones, concentraciones, procesos empíricos , Bernstein-von Mises, estadísticas U, etc. Por supuesto, la “comunidad de estadísticas” tampoco estuvo tan bien definida, y aunque las ideas como los filtros de Kalman, los HMM y el análisis de factores se originaron fuera de la “comunidad de estadísticas” definidas de manera limitada, se absorbieron dentro de las estadísticas porque claramente están relacionadas inferencia. Del mismo modo, las redes neuronales en capas pueden y deben verse como estimadores de función no paramétricos, objetos que deben analizarse estadísticamente.
En general, “estadística” se refiere en parte a un estilo de análisis: un estadístico se complace en analizar el rendimiento de cualquier sistema, por ejemplo, un sistema basado en la lógica, si toma datos que pueden considerarse aleatorios y genera decisiones que pueden ser considerado incierto. Un “método estadístico” no tiene que tener ninguna probabilidad en sí mismo. (Considere calcular la mediana).
Cuando Leo Breiman desarrolló bosques al azar, ¿estaba siendo un estadístico o un aprendiz de máquina? Cuando mis colegas y yo desarrollamos la asignación latente de Dirichlet, ¿estábamos siendo estadísticos o aprendices automáticos? ¿Son el SVM y el aprendizaje automático de impulso, mientras que la regresión logística es estadística, a pesar de que están resolviendo esencialmente los mismos problemas de optimización hasta formas ligeramente diferentes en una función de pérdida? ¿Por qué alguien piensa que estas son distinciones significativas?
No creo que la “comunidad ML” haya desarrollado muchos principios inferenciales nuevos, o muchos principios de optimización nuevos, pero sí creo que la comunidad ha sido extremadamente creativa al llevar las ideas existentes a través de muchos campos, y mezclarlas y combinarlas para resolver problemas en dominios problemáticos emergentes, y creo que la comunidad se ha destacado por hacer un uso creativo de las nuevas arquitecturas informáticas. Vería todo esto como la emergencia de una contraparte de ingeniería para las investigaciones más puramente teóricas que han tenido lugar clásicamente dentro de las estadísticas y la optimización.
Pero definitivamente no se debe equiparar las estadísticas o la optimización con la teoría y el aprendizaje automático con las aplicaciones. La “comunidad estadística” también ha sido muy aplicada, es solo que por razones históricas sus colaboraciones han tendido a centrarse en la ciencia, la medicina y la política en lugar de la ingeniería. El surgimiento de la “comunidad ML” ha ayudado (entre otras cosas) a ampliar el alcance de la “inferencia estadística aplicada”. Ha comenzado a romper algunas barreras entre el pensamiento de ingeniería (por ejemplo, el pensamiento de sistemas informáticos) y el pensamiento inferencial. Y, por supuesto, ha engendrado nuevas preguntas teóricas.
Podría seguir (y seguir), pero me detendré allí por ahora …

Puede leer más aquí: AMA: Michael I Jordan • / r / MachineLearning
Habiendo dicho eso, entienda los fundamentos. Álgebra lineal, Estadística, Teoría de muestras grandes, Prueba de hipótesis, Enfoques paramétricos y no paramétricos, Optimización.

Desearía tener mucho conocimiento sobre álgebra lineal y cálculo multivariado.