Al usar una muestra para análisis estadístico, ¿cómo puedo asegurarme de que sea suficiente?

Hay un término “estadística suficiente” que puede estar detrás de esta pregunta. Aquí, una estadística se define como una variable aleatoria, Y, que es una función de algunas variables aleatorias iniciales, X. Dicha estadística puede ser un escalar, un vector, una matriz, un tensor, lo que sea. Y es una estadística suficiente si y solo la información sobre el parámetro estadístico subyacente en la familia de distribuciones que se supone genera X está incrustada en Y.

Por ejemplo, si X es una matriz N por M de iid cero vectores de columna gaussianos multivariados medios, con covarianza R compartida, entonces la [media]
Y = X ^ TX
[/ math] es una estadística suficiente.

Tenga en cuenta que una estadística suficiente no es una declaración sobre “una muestra” sino más bien en función de la muestra. La pregunta parece confundir la medición con la estimación.

La respuesta es siempre: “Depende”.

La primera pregunta que debe responder es: “¿Suficiente para qué?”. Entonces “¿Qué tipo de resultados estás buscando?” y “¿Cuánta variabilidad hay en sus datos?”

Este video resume muy bien las cosas.

More Interesting

¿Cuál es la mejor manera de compartir y guardar consultas / investigaciones / resultados dentro de un equipo de ciencia de datos?

Cómo ingresar al campo de análisis de datos

¿Existe alguna literatura interesante sobre cómo ajustar las distribuciones normales por MLE, permitiendo que tanto la media como la varianza dependan de los regresores y el uso de series temporales?

¿Por qué Java no se considera apropiado para ML / ciencia de datos / aprendizaje profundo?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

Cómo aprender SAS o R por mí mismo

¿Cuál es exactamente la diferencia entre IA, aprendizaje automático y ciencia de datos? ¿Cómo puedo hacer una carrera en el mismo?

¿Qué MOOC es mejor para aprender a extraer datos? ¿Los datos masivos de minería establecen uno de Stanford o el de la Universidad de Illinois?

¿Cuáles son algunas de las mejores hojas de trucos de ciencia de datos en python y r?

¿Cuál es el plan de curso que debo tomar del estilo de datos?

Cómo convertirse en un desarrollador de Big Data a los 33 años sin experiencia previa en esta área

¿Cuál es la diferencia entre estadística computacional y ciencia de datos?

¿Cuáles son las principales herramientas para la ciencia de datos?

¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

Para un big data más reciente, ¿es un almacén de datos una mejor opción o no?