¿Qué es más preciso entre la media de datos agrupados y la media de datos no agrupados?

¿Por qué hay una diferencia entre la media de datos agrupados y no agrupados? Supongo que la media de los datos agrupados se calcula como una media de las medias dentro del grupo. En ese caso, siga la respuesta a continuación.

Primero verifique si la diferencia de medias es estadísticamente significativa usando una prueba t o una prueba z. La prueba que puede usar depende del tamaño de la muestra. Si la muestra es una muestra grande (n> 30), cualquiera de las pruebas funcionaría. Si se trata de una muestra pequeña, sería preferible una prueba t . En R, el paquete de estadísticas ofrece la función t.test () para hacer la prueba. Se pueden realizar pruebas de una o dos colas.
Si resulta que la diferencia es estadísticamente insignificante, entonces cualquier media está bien.
Si resulta que la diferencia es estadísticamente significativa, entonces podemos usar la media de los datos no agrupados . Si cree que hay datos atípicos en los datos, entonces podemos usar la mediana en lugar de la media.

La respuesta anterior se cumple si y solo si la suposición de que la media de datos agrupados es computadora como la media de las medias intragrupo.

Análisis deCiencia de datosdatos

¿Qué es más preferible en el aprendizaje automático, la precisión del modelo A es del 50% en los datos de entrenamiento y del 97% en los datos de las pruebas, o el modelo B tiene una precisión del 80% en los datos del tren y el 75% en los datos de las pruebas? (Más detalles en el comentario abajo) gracias!

¿Cuáles son las alternativas a los cursos como Big Data?

¿Es necesario el aprendizaje automático para el análisis de datos?

¿Python es mejor que R para la ciencia de datos?

¿Cómo es el título de MS Data Science and Analytics @Worcester Polytechnic Institute en términos de conexiones industriales y empleo después de la graduación?

¿Un disco duro completo normalmente contiene alrededor del 50% de unos y 50% de ceros?

La media de los datos agrupados es más precisa … en el cálculo de datos desagrupados de la media es ineficiente … conduce a una manipulación incorrecta, por lo que la mediana entró en escena … significa, la mediana son solo conceptos básicos de estadísticas … utilizamos promedio ponderado, desviación estándar en esa situación ..

Koppu Akhilchandra

More Interesting

¿Existe una buena biblioteca para los algoritmos de detección de deriva conceptual?

¿Qué es la computación paralela y cómo se usa en ciencia de datos?

Cómo proceder para obtener datos registrados en los parámetros de un equipo de Minería usando sensores

¿Cuáles son los diferentes caminos para convertirse en un científico de datos en grandes empresas como Google o Facebook, si acabo de comenzar a trabajar como científico de datos en una startup de análisis de datos en India después de mi graduación en el campo de la electrónica?

Cómo resolver errores de E / S de Linux sin reiniciar

¿Cuál es la forma de explorar mis datos más fácilmente?

¿Cuándo debe un principiante en ciencia de datos comprender que ha elegido un campo equivocado?

Cómo aprender ciencia de datos y análisis desde un punto de vista de gestión

¿Cómo se puede usar la ciencia de datos en la aviación?

Incluso utilizando un conjunto de validación, ¿no estamos tratando de maximizar los resultados en el conjunto de prueba? ¿Y al final sobreajustando?