¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

El muestreo de control de casos (aproximadamente) significa que se toman muestras de muchos casos (personas con resultados positivos, por ejemplo, pacientes con cáncer) y controles (es decir, personas con resultados negativos). El propósito de este diseño es hacer posible identificar predictores para condiciones raras: si solo muestreara representativamente de las poblaciones, obtendría muy pocos casos para que no pudiera establecer predictores para el resultado positivo.

En la regresión logística, la intersección (término constante) refleja la proporción de la muestra que tiene el estado del caso. Como tiene una proporción mucho mayor de casos en la muestra que en la población, debe reducir la intercepción para obtener un modelo que pueda usarse para hacer predicciones en la población. De lo contrario, el modelo “pensaría” que el estado del caso es muy común en la población, porque es (por definición) muy común en la muestra.