¿Por qué los estadísticos no querían trabajar en el aprendizaje automático hasta que los informáticos pusieron el campo ‘de moda’?

Como dice el refrán, un científico de datos es un estadístico que vive en San Francisco 😉

Estoy en gran parte de acuerdo con Patrick Harrington, los estadísticos han estado en la cima de muchos avances teóricos en el aprendizaje automático en las últimas décadas.

Para responder la pregunta más específicamente, creo que la informática simplemente fue el cuello de botella durante mucho tiempo. Las ideas básicas detrás del aprendizaje automático moderno en general y las redes neuronales en particular se han conocido y discutido durante mucho tiempo, pero durante un tiempo los sistemas informáticos simplemente no fueron lo suficientemente buenos como para explorar completamente sus implicaciones. Cuando mejoraron, se reanudó la investigación, los informáticos podrían trabajar con sistemas más complejos (pero conceptualmente similares) en conjuntos de datos más grandes para resolver problemas más interesantes. Esas pruebas y errores a su vez retroalimentaron a las personas teóricas, que refinaron y mejoraron su modelo. Y así. (Además de los algoritmos y la ingeniería informática propiamente dicha, el progreso en la ingeniería del software también fue bastante importante, en mi opinión, para facilitar tanto la investigación como las aplicaciones de ML).

Es un poco como la máquina de vapor. Sus principios básicos han sido conocidos y redescubiertos periódicamente durante mucho tiempo, pero solo podría desarrollarse y aplicarse a cosas realmente interesantes después de los avances en un campo diferente (metalurgia y ciencia de los materiales).

No estoy seguro de que esto sea completamente cierto. De hecho, dos de las técnicas de aprendizaje supervisado más utilizadas asociadas con el aprendizaje automático, el bosque aleatorio y los árboles de decisión potenciados por gradientes, fueron desarrolladas por los estadísticos Leo Breiman y Jerome Friedman, respectivamente. Estas dos técnicas han existido durante ~ 15 años, mucho antes de que el aprendizaje automático se pusiera de moda.

Al mismo tiempo, personalmente creo que hay cierta validez en la percepción de que los estadísticos podrían hacer más para diversificarse más allá de las estadísticas tradicionales. Por ejemplo, cuando Leo Breiman intentó publicar su artículo sobre bosques aleatorios, muchas revistas de estadística consideraron la idea demasiado radical. Finalmente lo hizo publicar en un diario de aprendizaje automático.

Hoy en día, creo que los estadísticos son mucho más abiertos que antes. Dado que el aprendizaje automático es el centro de atención en estos días, los estadísticos que no logran diversificarse en el aprendizaje automático corren el riesgo de perder un lucrativo trabajo y oportunidades de financiación de investigación.

Breiman fue un gran estadístico. Estaba antes de su tiempo en el sentido de los estadísticos “establecidos”.

Señaló, muy correctamente, que gran parte del entrenamiento estadístico establecido se centró demasiado en la inferencia y no lo suficiente en la predicción.

No era que los estadísticos no quisieran trabajar en el “aprendizaje automático”, sino que había una falta de conocimiento en las estadísticas en el momento del poder computacional y sus beneficios. Estaban acostumbrados a tener que inferir antes de cualquier predicción debido a la potencia computacional limitada con la que tenían que lidiar la mayoría de las veces. Y los estadísticos realmente establecidos estaban tan centrados en las minutas matemáticas que no podían ver el bosque al azar para los árboles de decisión (lo siento, no pude resistirme). Tenga en cuenta que Breiman obtuvo al menos el bosque aleatorio estadísticamente . No recuerdo cómo el papel original de CART estaba motivado en este momento.

No era que los estadísticos saltaran al aprendizaje automático porque estaba de moda, era porque Breiman estaba antes de su tiempo y veía más lejos que la mayoría de los estadísticos en ese momento. Él vio el futuro.

Lo que es preocupante a veces es la falta de consideración del pensamiento estadístico en el aprendizaje automático. No es la única forma de entender ML, sin duda, pero es valiosa. Y he visto falta de respeto por, por ejemplo, supuestos estadísticos porque son estadísticos. Lo cual es un poco tonto, especialmente porque casi en todos los casos he visto la decisión de hacer eso explotar frente a la persona que lo hizo.

No sé si esa afirmación es completamente precisa.

Los estadísticos han sido los que en gran medida han desarrollado teorías sobre lo que realmente está haciendo el aprendizaje automático, por ejemplo, impulsar o L1.

Incluso hoy, la teoría de la palabra de moda “aprendizaje profundo” se basa en modelos lineales generalizados recursivos.

Los estadísticos abordan el LD entendiendo una función de riesgo / pérdida y relacionándola con una distribución de probabilidad. Entienden las implicaciones de varias expansiones de funciones básicas. En última instancia, desean caracterizar la incertidumbre en torno a la estructura y la producción del modelo.

Así que argumentaría durante la mayor parte de finales de los 90 y hasta el presente, los estadísticos han sido los que menearon al perro de este campo.

El aprendizaje profundo fue en gran medida impulsado por la CS, por lo que en los últimos años se ha impulsado por eso (la no convexidad enloquece a cualquier persona de matemáticas), pero eso está cambiando con el enraizamiento del aprendizaje profundo en los fundamentos como, en última instancia, su “estimación de función” estocástica que hacen las personas de matemáticas / estadísticas bien.

Ohh, estoy muy seguro de que no tienes el conocimiento sobre el escenario completo.

¿Qué piensas de dónde provienen estos algoritmos de aprendizaje automático? Estos se derivan de mucho trabajo e investigación de los estadísticos. Ahora todo está de moda porque estamos viendo el resultado de este largo tiempo de arduo trabajo, no el esfuerzo involucrado.

Espero que esto ayude.