¿Es el aprendizaje automático una mejor forma o técnica para comprender los datos y hacer pronósticos que las estadísticas?

Nota: supongo que conoce los algoritmos de ML de al menos algunos conceptos estadísticos.

Se puede decir que ML y Statistics son un archivo que se superpone entre sí. Hay muchos algoritmos diferentes que están estrechamente asociados con las estadísticas. Entonces, la mejor respuesta es sí y no.

Depende de cuál es el alcance. Millones de puntos de datos no pueden calcularse a mano y hacer algún pronóstico al respecto. En lugar de eso, utiliza ML para obtener predicciones optimizadas y regulares.

ML utiliza la mayor parte de la técnica estadística, pero no toda. Y por lo tanto, se puede decir que, dependiendo del alcance, puede decir sí y no. Si ML utiliza esa técnica, entonces sí, si no, entonces no. ¿Y cuánto punto de datos tienes? Si millones, entonces cierra los ojos y ve con ML. No intente crear su propio modelo generalizado para predecir.

Se puede decir que las estadísticas son la columna vertebral del aprendizaje automático. O simplemente un nombre que los ingenieros de TI decidieron dar a las estadísticas cuando escribían programas automatizados para hacer pronósticos. Porque en el pasado los humanos estaban haciendo cálculos y haciendo predicciones, pero los programas automatizados hoy en día las máquinas lo hacen todo por usted. Y se vuelven a entrenar a medida que surgen más y más datos y mejoran cada vez más en la predicción con el tiempo . De ahí el término Machine Learning . Donde, como en las estadísticas, tendrá que volver a crear todo el modelo nuevamente y volver a presentar la función generalizada. Pero en ML, la función generalizada se modifica con el tiempo extra a medida que surgen más y más puntos de datos.

Por ejemplo,

Aprendizaje supervisado

Modelo de regresión: en esta técnica se proporcionan un conjunto de datos de entrada y el objetivo es llegar a una función generalizada imparcial. Y esta función generalizada se utiliza para hacer predicciones futuras. (Cuando el modelo de predicción no funciona bien, generalmente se observa el sesgo y la varianza de los datos y se realiza una mayor optimización después de tener en cuenta el sesgo y la varianza de los datos con respecto a la función generalizada).

Bosques aleatorios: de nuevo igual que el modelo de regresión anterior. Aquí se toma una muestra aleatoria de datos de miles de veces de los datos de entrada. (o datos que serán autoconstruidos) En base a estos miles de muestras, se determinan funciones generalizadas y estas funciones generalizadas se promedian para llegar a una sola función generalizada. Ahora esto ayuda a eliminar el sesgo del efecto de los datos o los llamados contornos. (mucha distribución chi cuadrado y otros factores se contabilizan aquí)

Bayesiano: Matemáticas puras. Matemáticas puras. Espero que entiendas este.

SVM: Support Vector Machine, bueno, son similares al modelo de regresión pero se utilizan para optimizar el rendimiento del modelo de regresión. (Para esto, deberá conocer los algoritmos de Machine Learning, no puedo entrar en detalles aquí)

Detección / agrupación de anomalías: estadísticas puras. Básicamente se te ocurre una función para el límite del clúster. ¿Cómo se hace bien promediando los puntos de datos hasta que los grupos apropiados emerjan de los datos? De nuevo, no voy en detalle porque está fuera de alcance aquí. (Deberá conocer los algoritmos de agrupación en detalle para descubrir cómo las estadísticas entran en juego aquí, pero digamos que se basa en gran medida en el promedio y la distancia entre puntos)

Optimización: se utilizan muchas estadísticas cuando se optimizan los algoritmos de ML. El descenso de gradiente es un ejemplo clásico de eso. La mejor función generalizada se determina básicamente calculando el error para todos los valores posibles y eligiendo el que tiene el menor error. (nuevamente estadísticas mín.) Y nuevamente necesitará conocer algoritmos de aprendizaje automático para saber más sobre esto.

En resumen, los conceptos que ML utiliza mucho y que son de estadísticas son,

  • Promedio
  • Min
  • Max
  • Plaza Chi
  • Distribución
  • Muestreo aleatorio

Y mucho mas. Estos son los pocos que se me ocurren desde la cabeza.

TLDR; ML y estadísticas se superponen entre sí. Y están estrechamente relacionados.