¿Cómo se puede utilizar la asignación al azar para evaluar la independencia de las variables?

La aleatorización se está utilizando para probar la hipótesis nula. Por ejemplo, en el primer conjunto, queremos saber si el género tiene algo que ver con las promociones. La hipótesis nula establece que los hombres y las mujeres son promovidos aleatoriamente (independientemente del género). Queremos preguntarnos: ¿qué tan probable es que observemos este conjunto de datos si la hipótesis nula fuera cierta? En otras palabras, es probable que esta gran brecha de género se produzca solo por casualidad.

Para responder a esta pregunta, necesitamos tomar nuestros datos originales y barajar las cosas. Esto se puede hacer con una computadora o literalmente barajando las cartas (si te gusta ese tipo de cosas). Todo lo que hacemos es asignar aleatoriamente a nuestros machos y hembras a las pilas promovidas o no promovidas. Hacemos esto un montón de veces (mil) y luego preguntamos: ¿cuántas de nuestras muestras asignadas al azar mostraron una diferencia de género tan extrema como nuestra muestra original?

Si nuestra muestra original mostró una gran diferencia de género en las tasas de promoción, y casi ninguna de nuestras muestras aleatorias mostró una gran diferencia (tasa alfa = 0.05), entonces podemos concluir que la diferencia de género que vimos probablemente no surgió por casualidad . Sería más seguro asumir que hay un sesgo de género en el trabajo, y podemos rechazar nuestra hipótesis nula de que nuestras promociones se asignan al azar.

Ciencia de datosEstadística

Related Content

¿Hay una explicación fácil sobre cuándo usar fit y cuándo un fit_transform de sk-learn en Python?

¿Data Science es el futuro de la programación y la habilidad de aprender de los aspirantes a programadores?

¿Qué opinas de Numerai?

¿Debería centrarme en aprender ciencia de datos o desarrollo web (Django) o debería hacer ambas cosas al mismo tiempo para poder mejorar en ambas?

¿Cómo explicará la precisión media promedio ( [correo electrónico protegido] ) a un cliente comercial en una sola oración?

¿Cuáles son los casos de uso típicos para diferentes algoritmos de aprendizaje automático? Por ejemplo, ¿en qué condiciones típicas uno preferiría usar uno sobre el otro sin haber probado la precisión del aprendizaje?

¿Cómo tenemos equilibrio de carga en los reductores en caso de sesgo de datos?

More Interesting

¿Cómo reconocer a Rising Stars en el campo de los negocios? Que métodos

¿Cuál es el estado actual de Julia, el lenguaje de programación?

¿Cuál es el futuro de Big Data en la gestión del talento?

¿Cómo se puede construir un conjunto de datos donde podamos consultar la deuda total para cada sección censal?

En la regresión lineal múltiple, se da uno de cuatro coeficientes. ¿Cómo puedo obtener el ajuste deseado usando un método de regresión múltiple en tal caso?

¿Cuál es la diferencia entre big data y DBMS?

Tengo 10 años de experiencia en mainframe. Estoy tratando de aprender Big Data Analytics. ¿Cómo procedo? No entiendo el mundo distribuido.

¿Cómo se pueden combinar las técnicas de minería de texto con los sistemas de recuperación de información?

¿Cuáles son los mejores institutos de capacitación y certificación de Big Data y Hadoop en Bangalore?

¿Podrían algunas características ser más importantes / significativas en algunos algoritmos de aprendizaje automático que en otros?

¿Qué proyectos interesantes de análisis de datos se han completado utilizando herramientas de redes sociales?

¿Qué tan útil es Matlab, para Kaggle, en comparación con R y Python?

¿Cuál es la relación entre los científicos de datos de la industria y la academia?

¿Por qué son útiles los modelos generativos profundos?

¿Debo pasar a la ciencia de datos desde la ingeniería de big data?

Web Analytics