¿Qué significa “casi todas las herramientas de software estadístico disponibles para los científicos alientan el modelado paramétrico y, por lo tanto, el diseño de experimentos basados ​​en suposiciones sobre la distribución de datos que están equivocados”?

Estrictamente hablando, es correcto. Pero de otra manera, está completamente mal.

Hay dos puntos:
1. ¿Qué hace el software estadístico?

Es cierto que es más fácil ejecutar modelos altamente paramétricos (p. Ej., Regresión de mínimos cuadrados ordinarios) que modelos menos paramétricos (como, por ejemplo, splines de regresión adaptativa multivariante – MARS). Pero si bien esto es cierto con las computadoras, era aún más cierto antes de las computadoras. Simplemente intente configurar un modelo MARS con solo una calculadora, ¡puede llevar toda una vida!

De hecho, la razón por la cual el software de computadora enfatiza los modelos paramétricos es porque ahí es donde está la demanda; y la razón de esa demanda es la familiaridad; y la razón de la familiaridad es que los otros modelos eran muy, muy difíciles antes que las computadoras.

(por ejemplo, algunos análisis factoriales se realizaron solo con calculadoras, pero tomó mucho trabajo)

2. Suposiciones que están mal.

Bien, tomemos la regresión de OLS. Se supone que los errores (según lo estimado por los residuos) se distribuyen normalmente. Esto, estrictamente hablando, nunca es cierto. ¿Pero entonces? ¿Qué tan grande es la violación y qué consecuencias tiene? OLS también supone que las relaciones son lineales. Nunca es estrictamente cierto, pero, de nuevo, ¿entonces?

Hoy, con las computadoras, podemos ejecutar fácilmente múltiples modelos, incluidos los que imponen menos restricciones. Luego podemos comparar el modelo OLS con otra cosa y decidir si el ajuste agregado vale la complejidad adicional

Significa que asume que sus datos siguen alguna distribución con un número fijo de parámetros: normal, bernoulli, exponencial, etc. Dicho esto, George Box tenía una buena cita que podría usarse en respuesta a esto: “todos los modelos están equivocados”. Algunos modelos son útiles “. La pregunta no es si sus datos violan los supuestos, es si sus datos violan los supuestos tan mal que no puede hacer buenas predicciones / obtener una intuición útil usando esos modelos.

Solo para agregar a las respuestas ya buenas, hacer suposiciones sobre el proceso de generación de datos subyacente puede ser muy útil cuando se trata de pequeños conjuntos de datos. Simplemente ajustar los datos observados con un modelo no paramétrico muy flexible puede conducir a un sobreajuste. De hecho, gran parte de la motivación para la inferencia bayesiana es mirar más allá de lo que podemos observar en un conjunto de datos escaso e incorporar nuestro conocimiento previo. Paradójicamente, son estos problemas de datos más pequeños los que requieren métodos computacionalmente más intensos.

Con datos muy grandes, podemos gastar menos energía en tratar de llegar a una historia sobre las distribuciones subyacentes que generaron los datos. Los datos pueden hablar por sí mismos, en cierto sentido, y por lo tanto los modelos más flexibles pueden funcionar sin sobreajustar los datos.

Digamos que tengo una serie de observaciones de una variable aleatoria continua X. Quiero modelar su distribución. Si tengo un gran número de observaciones, probablemente usaré métodos no paramétricos, con énfasis en la visualización. Veré un histograma y una estimación de la densidad del núcleo de X. Pero si tengo un número muy pequeño de observaciones, necesito incorporar algunos conocimientos previos derivados de la comprensión del dominio al que pertenece X. Tendría que decidir qué distribución generó de manera más sensata los datos X, sabiendo que esta distribución es probablemente “incorrecta” estrictamente hablando.

Para agregar a las otras excelentes respuestas, incluso los métodos ‘no paramétricos’ hacen suposiciones sobre los datos que generalmente son incorrectos (por ejemplo, independencia de las observaciones).

Podrías ir más allá: el modelo conceptual que tienes en mente incluso antes de planear un experimento es probablemente también una gran simplificación.

En otras palabras, no existe una ciencia verdaderamente libre de modelos, por lo que es un error atacar las estadísticas paramétricas simplemente porque sus modelos no son perfectos.

Realmente no está claro lo que el autor realmente está tratando de decir. Puede que tenga que ver con mala gramática. Sin embargo, todas las pruebas paramétricas implican hacer suposiciones sobre la población. El software está construido para permitirle especificar las características de la población. No estoy seguro si eso significa ‘alentar’ el ajuste de parámetros, pero obviamente si sus parámetros son incorrectos, su modelo estará equivocado.

More Interesting

¿Cuáles son algunas áreas de investigación desafiantes / declaraciones de problemas en la minería de datos?

¿Cuál es la diferencia entre la investigación de mercado y la ciencia de datos, y cómo se pueden integrar juntos?

¿Cómo se utilizan los grandes datos para identificar a los mejores compradores potenciales?

¿Cuál es mejor para el estudio de big data 'simplilearn' o 'Intellipaat'?

¿Cuáles son algunos de los mayores problemas que las herramientas de Big Data y visualización de datos pueden resolver para los participantes del mercado financiero?

¿Cuál es la diferencia entre Driven-data y Data?

¿Cuál es la estructura de datos más eficiente para admitir agregar al final del conjunto, así como acceder o actualizar el i-ésimo valor?

Cómo construir mi carrera en ciencia de datos

Soy estudiante de primer año del programa de maestría en análisis y recuperación de información en la Universidad de Michigan. Rutinariamente trabajo con cerdo y colmena y soy muy hábil con Python y R, pero ¿son suficientes o necesito ser doctorado antes de comenzar una carrera en ciencias de datos?

¿Cuál es su viaje completo de aprendizaje / aplicación en Machine Learning / Data Science / NLP?

¿Cómo se puede aplicar la ciencia de datos a los anuncios de Facebook?

¿Que competencia de kaggle debería elegir?

¿Qué es Big Data y por qué es importante?

¿Cómo hacemos un envío de código en Kaggle?

¿Cuáles son las ideas de proyectos de big data en el campo de la neurociencia?