¿Las estadísticas son solo aprendizaje automático?

¡Oh cielos, no!

Según la Asociación Americana de Estadística:

La estadística es la ciencia de aprender de los datos, y de medir, controlar y comunicar la incertidumbre; y por lo tanto proporciona la navegación esencial para controlar el curso de los avances científicos y sociales.

A menudo se piensa que las estadísticas son un subconjunto de las matemáticas, y en términos modernos probablemente lo es. El aprendizaje automático, por el contrario, surgió de la informática. El aprendizaje automático utiliza las estadísticas como columna vertebral, pero es mucho más amplio que eso. El aprendizaje automático utiliza tecnología para discernir patrones en los datos. Se esfuerza por construir algoritmos que puedan usarse en futuros conjuntos de datos.

La estadística es parte de ese esfuerzo, contribuyendo a la comprensión de la probabilidad y algunos otros componentes.

William Chen escribió una gran respuesta sobre esto en ¿Cuál es la diferencia entre estadística y aprendizaje automático?

La estadística se trata de sacar conclusiones válidas

Se preocupa profundamente por cómo se recopilaron los datos, la metodología y las propiedades estadísticas del estimador. Gran parte de la estadística está motivada por problemas en los que necesita saber con precisión lo que está haciendo (ensayos clínicos, otros experimentos).

Las estadísticas insisten en una metodología adecuada y rigurosa, y se sienten cómodos al hacer y observar suposiciones. Se preocupa por cómo se recopilaron los datos, las propiedades resultantes del estimador o experimento (por ejemplo, valor p, estimadores imparciales) y los tipos de propiedades que esperaría si realizara un procedimiento muchas veces.

El aprendizaje automático se trata de predicción

Se preocupa profundamente por la escalabilidad y el uso de las predicciones para tomar decisiones. Gran parte del aprendizaje automático está motivado por problemas que necesitan respuestas (por ejemplo, reconocimiento de imágenes, inferencia de texto, clasificación, visión por computadora, medicina y atención médica, motores de búsqueda).

ML se complace en tratar el algoritmo como una caja negra siempre que funcione. La predicción y la toma de decisiones son el rey, y el algoritmo es solo un medio para un fin. Es muy importante en ML asegurarse de que su rendimiento mejorará (y no tomará una cantidad absurda de tiempo) con más datos.

Si combina los dos, obtiene el aprendizaje automático estadístico , que se trata de predicciones realizadas utilizando muchos supuestos y técnicas estadísticas válidas.

Yo diría que no. Debido a que ML recibe mucha prensa, financiación y atrae a estudiantes brillantes, los estadísticos podrían afirmar que ML es solo estadísticas, pero yo diferiría.

ML, sin duda, se basa en estadísticas, pero también trae consigo un sabor distintivo de CS y una tonelada de aplicaciones que van desde PNL, visión, hasta robótica. Los estadísticos nunca intentaron ninguna de estas aplicaciones, y las estadísticas de vainilla no funcionarán para ellos. Para que las estadísticas funcionen para estos, la gente de ML agregó un giro computacional y rechazó áreas como los asintóticos. Por estas contribuciones, diría que los estudiantes de máquina tienen el derecho de distinguirse de la comunidad estadística tradicional.

Para establecer una analogía, si ML puede considerarse estadística, entonces argumentaría que Estadística, Física, Ingeniería, etc., deberían considerarse solo Matemáticas.