¿Por qué la regresión logística es generalmente resistente al sobreajuste en el aprendizaje automático?

Cuanto mayor sea el número de parámetros en un sistema, mayores serán las posibilidades de sobreajuste. Si tiene 1 millón de parámetros, hay muchas más posibilidades de sobreajuste que si tiene 10. ¿Por qué? Porque la probabilidad de encontrar una hipótesis que explique los datos de manera sobreajustada en 10 dimensiones es mucho menor. Obviamente, si desea ser deliberadamente sangriento al respecto, podría crear un algoritmo que se ajuste demasiado incluso si tuviera dimensiones más bajas, pero suponiendo que deseara optimizar el rendimiento, es poco probable.

Los modelos de regresión logística tienen muy pocos parámetros. En general, si su vector de entrada es n, entonces el modelo de regresión logística tendrá n + 1 parámetros.

Por supuesto, como siempre en el aprendizaje automático, no hay almuerzo gratis. La representación compacta significa que no puede representar conceptos complejos. Como ejemplo, no puede representar XOR en una regresión logística.

Dado que en una regresión logística el número de parámetros no será alto. Es una técnica de aprendizaje automático de escala moderada que se vuelve engorrosa si tiene más parámetros en su función. Cuanto menos sean los parámetros, hay menos posibilidades de sobreajuste. En la parte superior tiene un parámetro de sesgo para administrar el sobreajuste. Para un no muy delineado, la regresión logística de datos dinámicos no es apropiada y, por lo tanto, tiene la libertad de mantenerla nítida y simple.