Al usar una muestra para análisis estadístico, ¿cómo puedo asegurarme de que sea suficiente?

Hay un término “estadística suficiente” que puede estar detrás de esta pregunta. Aquí, una estadística se define como una variable aleatoria, Y, que es una función de algunas variables aleatorias iniciales, X. Dicha estadística puede ser un escalar, un vector, una matriz, un tensor, lo que sea. Y es una estadística suficiente si y solo la información sobre el parámetro estadístico subyacente en la familia de distribuciones que se supone genera X está incrustada en Y.

Por ejemplo, si X es una matriz N por M de iid cero vectores de columna gaussianos multivariados medios, con covarianza R compartida, entonces la [media]
Y = X ^ TX
[/ math] es una estadística suficiente.

Tenga en cuenta que una estadística suficiente no es una declaración sobre “una muestra” sino más bien en función de la muestra. La pregunta parece confundir la medición con la estimación.

Related Content

En la compresión de datos, ¿cómo ayuda la mejora de la SNR a aumentar la tasa?

¿En qué áreas del aprendizaje automático es crucial la cuantificación de la incertidumbre?

¿Cuáles son algunos trabajos de big data en los Estados Unidos?

¿Cuáles son las métricas que debo usar al analizar las redes sociales de una marca? ¿Cómo interpreto los resultados?

¿Cómo ayuda la limpieza de datos a expirar datos y clientes potenciales pobres?

¿Por qué TRAI no condenó la política de violación de la neutralidad de la red de Airtel Zero?

¿Cómo se puede utilizar Data Science en el sector de las telecomunicaciones?

La respuesta es siempre: “Depende”.

La primera pregunta que debe responder es: “¿Suficiente para qué?”. Entonces “¿Qué tipo de resultados estás buscando?” y “¿Cuánta variabilidad hay en sus datos?”

Este video resume muy bien las cosas.

Allan Steinhardt

More Interesting

¿Cuál es la mejor manera de compartir y guardar consultas / investigaciones / resultados dentro de un equipo de ciencia de datos?

Cómo ingresar al campo de análisis de datos

¿Existe alguna literatura interesante sobre cómo ajustar las distribuciones normales por MLE, permitiendo que tanto la media como la varianza dependan de los regresores y el uso de series temporales?

¿Por qué Java no se considera apropiado para ML / ciencia de datos / aprendizaje profundo?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

Cómo aprender SAS o R por mí mismo

¿Cuál es exactamente la diferencia entre IA, aprendizaje automático y ciencia de datos? ¿Cómo puedo hacer una carrera en el mismo?

¿Qué MOOC es mejor para aprender a extraer datos? ¿Los datos masivos de minería establecen uno de Stanford o el de la Universidad de Illinois?

¿Cuáles son algunas de las mejores hojas de trucos de ciencia de datos en python y r?

¿Cuál es el plan de curso que debo tomar del estilo de datos?

Cómo convertirse en un desarrollador de Big Data a los 33 años sin experiencia previa en esta área

¿Cuál es la diferencia entre estadística computacional y ciencia de datos?

¿Cuáles son las principales herramientas para la ciencia de datos?

¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

Para un big data más reciente, ¿es un almacén de datos una mejor opción o no?

Web Analytics