¿Qué hace que un estadístico sea único? La tecnología cambia la vida futura

[Soy francés, perdón por mi inglés]

Hola, gracias por preguntar … ¿pero los estadísticos son iguales de otro y diferentes de los demás? En otros términos, ¿la varianza dentro del grupo de “estadísticos” es menor que la varianza del centro de todos los grupos profesionales?

Aquí tienes una pista para tu respuesta. Examinemos un poco más y veamos cuáles son las formas específicas en que piensa un estadístico.

Diferencia. Comparar dos medios no significa nada si no conoce la variabilidad dentro de sus dos grupos. Muchos métodos estadísticos tienden a descomponer la variabilidad (llamada varianza, inercia, información) en dos categorías principales. La variabilidad que explicas y la variabilidad residual. Lo que lleva al segundo reflejo estadístico
Inferencia y modelo. Hoy en día, los datos son baratos, abundantes. Pero las estadísticas se desarrollaron cuando los datos eran caros, por ejemplo, en la agricultura, un individuo es una parcela, un campo en el que había que hacer crecer las cosas, cosecharlas, medir esto. Así que tenía que sacar conclusiones basadas en pocos individuos y variables. Eso te lleva a inferir del dat + conocimiento que tienes. Los matemáticos y los probabilistas deducen de la hipótesis. El estadístico induce hipótesis a partir de datos. Construyen un modelo, hacen una hipótesis nula: mi modelo es inútil, y una hipótesis alternativa: mi modelo explica los datos mejor que nada. Solo entonces pueden deducir cuál es la ley que se supone que sus estadísticas deben seguir bajo esta hipótesis nula. Entonces un probabilista calculará la PROBABILIDAD de algo. El estadístico dibujará una hipótesis, luego observará los datos y luego calculará la probabilidad de sus datos bajo la hipótesis nula. Los aprendices de máquina a veces olvidan que siempre hay un tipo de modelo detrás de un algoritmo.
Rechaza lo contrario de lo que quieres probar. Desde el punto anterior, es posible que haya notado que un estadístico calcula la probabilidad, la mayoría de las veces, bajo el supuesto de que no hay ningún efecto. Y si la probabilidad de observar su muestra es demasiado pequeña bajo esta hipótesis, la rechaza así aceptando la alternativa, que hay un efecto. Este es un gran vínculo con el pensamiento científico experimental. Intentas demostrar que tu punto está equivocado. Si no puede, puede ser correcto. Eso significa que los buenos estadísticos nunca olvidan que rechazan la hipótesis nula más que si aceptan la alternativa. Il lleva a la modestia.
Espacio y probabilidad. Los estadísticos piensan de dos maneras diferentes. Probabilidad, espacios lineales (geometría, matriz). Una regresión lineal es la línea que modela mejor la expectativa de una variable dado el valor de otra variable. También es la línea que es en promedio el más cercano de todos los puntos de datos. Una proyección. Con el enfoque de probabilidad y el enfoque geométrico (es decir, maximizar la probabilidad bajo un modelo gaussiano y proyectar la variable de interés en el subespacio generado por la variable predictiva) un estadístico está teniendo un braingasm. Uno de mis colegas puede proyectar mentalmente objetos de 4 o 5 dimensiones en un subespacio de 3 dimensiones. Apenas veo en perspectiva 😉
Realidad versus expectativas. Los estadísticos tratan con un modelo Y con datos. A menudo me llamo a mí mismo un datician, ya que soy alguien que aplica estadísticas. Entonces los estadísticos saben cuán sucios pueden ser los datos. Los matemáticos, o incluso los físicos, piensan que la realidad es limpia como sus ecuaciones. Sabemos que el 80% del trabajo es limpiar los datos. Todo el software listo para usar que afirma que la puntuación es obvia, comienza desde donde casi terminamos: buenos datos limpios, sin valores atípicos, sin datos faltantes, sin modalidad categórica al 1% y así sucesivamente.
Fe. Esto es lo que la gente pierde con el levantamiento de Big Data. La gente piensa que tienes que calcular TODOS los datos. El estadístico tiene fe en la aleatorización. Si los datos son enormes, es probable que una muestra simplemente grande obtenga la estructura principal, si hay una. Creemos que modelar, muestrear e inferir es lo suficientemente poderoso en la mayoría de las situaciones. En lugar de usar hadoop para calcular la media real de una muestra de tera, tomamos una muestra de mega y calculamos la media en nuestra computadora portátil. Debido a que el muestreo aleatorio es tan poderoso, los estadísticos lo llaman apuestas contra el diablo.

Permítanme resumirlo: varianza, inferencia, rechazar lo contrario de su esperanza, espacio y probabilidad, datos sucios y fe. Lo siento, he hablado, además, en un idioma que no hablo con fluidez.