¿Por qué hay una diferencia entre la media de datos agrupados y no agrupados? Supongo que la media de los datos agrupados se calcula como una media de las medias dentro del grupo. En ese caso, siga la respuesta a continuación.
- Primero verifique si la diferencia de medias es estadísticamente significativa usando una prueba t o una prueba z. La prueba que puede usar depende del tamaño de la muestra. Si la muestra es una muestra grande (n> 30), cualquiera de las pruebas funcionaría. Si se trata de una muestra pequeña, sería preferible una prueba t . En R, el paquete de estadísticas ofrece la función t.test () para hacer la prueba. Se pueden realizar pruebas de una o dos colas.
- Si resulta que la diferencia es estadísticamente insignificante, entonces cualquier media está bien.
- Si resulta que la diferencia es estadísticamente significativa, entonces podemos usar la media de los datos no agrupados . Si cree que hay datos atípicos en los datos, entonces podemos usar la mediana en lugar de la media.
La respuesta anterior se cumple si y solo si la suposición de que la media de datos agrupados es computadora como la media de las medias intragrupo.
- ¿Cuál es la diferencia entre datos, información y conocimiento?
- ¿Los datos de centrado y escalado siempre dan mejores modelos lineales?
- ¿Cuál es la diferencia entre boost, ensemble, bootstrap y bagging?
- ¿Cómo puedo leer datos del PLC?
- ¿Por qué Two Sigma diseñó su concurso de Kaggle para eliminar cualquier beneficio del conocimiento del dominio?