¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

Por lo general, la cantidad de datos es tan grande que las pruebas de hipótesis estadísticas son costosas e innecesarias si los experimentos están bien diseñados. Con una gran cantidad de datos, es realmente raro descubrir patrones fuertes y robustos que resistan las verificaciones de validación cruzada y, sin embargo, sean espurios (la correlación versus la causalidad es la causa principal que viene a la mente). Además, muchos modelos de minería de datos y aprendizaje automático son deterministas y no admiten pruebas de hipótesis sin imaginación. Incluso los modelos que son de naturaleza estocástica son lo suficientemente complejos como para que solo se puedan realizar pruebas de hipótesis aproximadas e ineficaces y aumentarán el tiempo de cálculo en un orden de magnitud. Por lo tanto, el aprendizaje automático, la minería de datos, la comunidad de big data se basa más en la validación cruzada para probar la espuriedad, y no lleva a cabo pruebas de importancia. Sin embargo, algunos documentos con simulaciones y datos a pequeña escala tampoco informan intervalos de confianza ni realizan pruebas de hipótesis, lo cual es peligroso.

Es un mito que el aprendizaje automático no implica pruebas de hipótesis estadísticas.

Los mineros de datos usan pruebas de hipótesis estadísticas de varias maneras, a menudo sin hacerlo conscientemente.

El aprendizaje automático es un proceso de prueba y error para encontrar un modelo que se parezca a los datos disponibles. Cada paso del proceso de ajuste del modelo es una prueba de hipótesis que compara el ajuste de una nueva forma de modelo con el mejor de los modelos probados previamente.

Las técnicas de modelado convencionales basadas en hipótesis también se utilizan en la minería de datos, pero de manera deficiente. Si bien las pruebas de hipótesis estadísticas tradicionales se basan en supuestos significativos con respecto a la naturaleza de los datos, los mineros de datos utilizan los mismos métodos sin tener en cuenta la teoría y los supuestos. Es la naturaleza del flujo de trabajo de minería de datos.

Debido a que no hacen una base teórica por adelantado, los mineros de datos no pueden usar la teoría para justificar los modelos que desarrollan. En cambio, deben depender de las pruebas, con datos de espera y nuevos datos de campo, para validar los resultados.

La hipótesis nula exacta (por ejemplo, que las dos medias son exactamente iguales) en la práctica siempre es falsa, y en un régimen con muchos datos de prueba, casi seguramente rechazará el nulo. Entonces, en ese sentido, la prueba de hipótesis con la hipótesis nula exacta no es muy útil en un entorno de aprendizaje automático con muchos datos.

Por otro lado, aún puede considerar una hipótesis nula aproximada (por ejemplo, que las dos medias están dentro de algún delta distinto de cero). De hecho, ¡probablemente deberías!

También podría estar en una situación con muchos datos de entrenamiento pero no muchos datos de prueba. Esta es quizás una situación poco común en el aprendizaje automático, pero surge. Por ejemplo, esto podría ocurrir cuando los datos limpios y “dorados” son caros, pero los datos aproximados son baratos. En este caso, la prueba de hipótesis es definitivamente útil e importante para una evaluación rigurosa del modelo.