La mayoría de las personas tienen una grave falta de comprensión acerca de los clasificadores y cómo establecer umbrales.
La respuesta correcta NO es establecer el umbral en 0.5.
Debe saber qué métrica está tratando de maximizar y el rendimiento de su clasificador en su conjunto de datos.
- ¿Cómo debo comenzar con las redes neuronales recurrentes?
- ¿En qué técnicas de aprendizaje automático se puede confiar para identificar (y posiblemente tratar) la deriva del concepto?
- ¿Qué es exactamente la monitorización neuronal remota?
- ¿Cuál es el propósito de usar la variable slack en SVM?
- ¿Cuál es el mejor enfoque para la ubicación geográfica del dispositivo de clúster por cliente?
Sí, con un término de sesgo, la regresión logística tendrá en cuenta el desequilibrio. Pero eso no significa que 0.5 sea un buen umbral.
Por ejemplo, si sus características no son muy buenas y establece el umbral en 0.5 con un desequilibrio de clase de 95/5, básicamente siempre predecirá la clase mayoritaria y alcanzará un 95% de precisión.
Pero, siempre emitirá la misma predicción 1,1,1,1,1,1 …
¿Es eso lo que quieres? Si no, no establezca el umbral en 0.5.
¿Te importa el recuerdo? ¿Cuántos falsos positivos son aceptables para usted? Debe tenerlos en cuenta y luego decidir un umbral que satisfaga las necesidades de su problema.