¿Cuánto conocimiento de estadísticas básicas se utiliza realmente en la ciencia de datos moderna? La tecnología cambia la vida futura

No estoy muy seguro de lo que considera inferencia estadística, pero parece tener un malentendido fundamental sobre lo que eso constituye. La inferencia estadística es el proceso mediante el cual alguien saca conclusiones sobre una población más grande a partir de datos con variación aleatoria inherente. Esto es esencialmente lo que los estadísticos han estado haciendo desde siempre, y lo que los científicos de datos están haciendo ahora.

La inferencia estadística fue crítica cuando no pudimos capturar datos completos.

Bueno, por suerte para nosotros los estadísticos, todavía no estamos recopilando datos completos. Lo que hacemos ahora, especialmente en la industria tecnológica o empresarial, es recopilar muchos datos. Para tener datos completos, necesitaríamos todas las variables relevantes para cada persona en la población de interés. No hay absolutamente ninguna manera de hacer esto para nada más que un ejemplo de juguete. El hecho de que haya más datos no significa que sean datos completos. Casi cada vez que recopila datos, está trabajando con un subconjunto de la población, no con todo.

Por lo que veo, los modelos de aprendizaje automático dependen en gran medida de la minimización de errores y utilizan conceptos de probabilidad, pero el uso de inferencia estadística, muestreo o cualquier supuesto de distribución sobre los datos son raros.

Si bien es cierto que muchos algoritmos de aprendizaje automático adoptan enfoques no paramétricos, decir que confían solo en la minimización de los conceptos de error y probabilidad es como decir que el automóvil depende del camino para conducir. Estás mirando muy de cerca estos algoritmos y señalando sus propiedades sin comprender realmente cómo funcionan. Se basan en una amplia variedad de teoría estadística que incluye inferencia, teoría de muestreo y distribuciones de muestreo. No solo eso, sino que no importa qué modelo elija, si sus datos se recopilan mal, es decir, si tiene observaciones dependientes, variables colineales y no piensa en posibles factores de confusión, se generalizará mal. Lo que significa que acabas de perder tu tiempo.

Por ejemplo, una técnica muy conocida se llama embolsado (o agregación bootstrap). Este método supone esencialmente que la distribución verdadera de los datos es muy similar a la muestra observada. Muestra de nuevo su conjunto de datos recopilados para crear nuevos conjuntos de datos y crea un modelo agregado a partir de los resultados de la adaptación con estos nuevos conjuntos de datos. Hay mucha teoría detrás de por qué esto funciona, pero esencialmente reduce la variación y el problema del sobreajuste. Nada de esto sería posible sin todas las cosas que creías que ya no usamos.