¿El rendimiento de la regresión logística se ve afectado negativamente por características altamente correlacionadas?

Rendimiento: no
Interpretación: sí.
La presencia de una característica altamente correlacionada no afectará la predicción final del modelo. Sin embargo, las estimaciones de los coeficientes pueden no tener sentido.
Un coeficiente de regresión mide el cambio en Y por unidad de cambio en ese predictor, todos los predictores se mantendrán fijos. Pero los predictores correlacionados cambian juntos.

Ejemplo:
A. Y cantidad total de cambio en su bolsillo; X1 = # de monedas; X2 = # de centavos, monedas de cinco centavos y monedas de diez centavos. Por sí mismo, el coeficiente de regresión de Y en X2 será> 0. ¿Pero qué tal con X1 en el modelo?
B. Y = número de tacleadas por un jugador de fútbol en una temporada; W
y H son su peso y altura. Modelo de regresión ajustado
es Y = B (0) + 0.50W-0.10H. ¿Cómo interpretamos B (2) <0?

Gracias

Gracias por el A2A. Lo intentaré en términos sencillos.
Para una regresión logística, características altamente correlacionadas pueden resultar en estimaciones de parámetros altamente inestables.

En términos simples, digamos que tiene 4 características A, B, C y D. Digamos que está tratando de predecir la clase de X.
Digamos que tienes una multicolinealidad entre A, B y C. Algo así como:
A + B = C
Cuando toma una muestra para encontrar las estimaciones de los parámetros, la estimación de C puede distribuirse entre A y B. Para alguna otra muestra, puede distribuirse entre A y C y así sucesivamente. Esta es una forma básica de entender el problema de multicolinealidad en la regresión logística. Dado que las estimaciones de parámetros estables son una de las formas importantes de juzgar la regresión logística, la multicolinealidad sí afecta el rendimiento.

Gracias por el A2A.

Considere un caso en el que sus variables tienen un alto coeficiente de correlación, pero no son realmente colineales, entonces todavía no es increíblemente sorprendente obtener el comportamiento de signo opuesto que observa (¡aunque no tengo una idea exacta sobre su problema!) , porque todo depende de las otras variables que tenga en su modelo.

Hablando de los clasificadores en su conjunto, no solo de LR, dudo si existe alguna correlación con la clasificación que pueda ocurrir. Pero lo único a tener en cuenta es evitar el ajuste excesivo.

Espero que esto ayude.

Sí, no puede aplicar regresión logística si sus características están altamente correlacionadas. Sin embargo, puede utilizar la regresión logística regularizada que podría ayudarlo a resolver este problema.
Puede elegir regularización L1 (Lazo) o regularización L2 (Ridge). L1 también podría ayudarlo en la selección de funciones, mientras que L2 reduciría los coeficientes.
El paquete scikit-learn puede implementar regresión logística regularizada:
http://scikit-learn.org/stable/m
Favor de referirse al enlace de arriba para sus detalles.