Hay una serie de problemas muy comunes que afectan probablemente a la mayoría de las investigaciones científicas publicadas. Por ejemplo:
- Poder estatico. Muchos investigadores nunca estiman el poder de sus estudios y, en consecuencia, usan tamaños de muestra muy pequeños para concluir falsamente que no hay diferencia entre los grupos de estudio. En muchos casos, los ensayos médicos publicados no tienen el poder de detectar una diferencia del 50% en el resultado entre los grupos.
- Falacia de tasa base. Si está evaluando un evento raro, hay muchas más oportunidades para falsos positivos que falsos negativos. Esto significa que la mayoría de sus resultados positivos serán falsos positivos. Además de las implicaciones obvias en el examen médico, esto también afecta cosas como encuestas que preguntan a los estadounidenses si han usado un arma en defensa propia: debido a que muy pocas personas lo han hecho, la pequeña tasa de falsos positivos puede ser tan grande como la verdadera tasa positiva.
- Deteniendo las reglas. Es común aumentar el tamaño de la muestra de su estudio hasta que logre un resultado significativo o se quede sin dinero. Sin embargo, esto aumenta enormemente la posibilidad de un falso positivo.
- Verdad inflación. Los estudios de baja potencia combinados con el sesgo de publicación significa que solo se publicarán los estudios que informan un tamaño de efecto excesivamente grande, obtenido debido a la suerte, mientras que los estudios que miden el tamaño real del efecto no alcanzarán significación estadística.
Hay bastantes problemas más comunes, por lo que me interesaré notar que he escrito una larga guía sobre estos temas que los explica (y otros) en gran profundidad. O al menos espero que sea de gran profundidad:
Estadísticas hechas mal
- ¿Cuáles son los principales enfoques de la inteligencia artificial?
- ¿Python es más lento que MATLAB para la ciencia de datos y el aprendizaje automático?
- ¿Podemos usar GridSearchCV () en CountVectorizer () cuando usamos modelos scikit-learn en datos de texto, o la búsqueda en cuadrícula solo se puede ejecutar en los modelos predictivos?
- ¿El aprendizaje automático es el futuro del mundo de la programación?
- Como persona con una maestría en química y un doctorado en ingeniería eléctrica y nanotecnología, a los 26 años sin experiencia en ciencias de la computación, ¿es demasiado tarde o demasiado difícil enseñarme a mí mismo el aprendizaje automático?