¿Por qué la regresión logística es generalmente resistente al sobreajuste en el aprendizaje automático?

Cuanto mayor sea el número de parámetros en un sistema, mayores serán las posibilidades de sobreajuste. Si tiene 1 millón de parámetros, hay muchas más posibilidades de sobreajuste que si tiene 10. ¿Por qué? Porque la probabilidad de encontrar una hipótesis que explique los datos de manera sobreajustada en 10 dimensiones es mucho menor. Obviamente, si desea ser deliberadamente sangriento al respecto, podría crear un algoritmo que se ajuste demasiado incluso si tuviera dimensiones más bajas, pero suponiendo que deseara optimizar el rendimiento, es poco probable.

Los modelos de regresión logística tienen muy pocos parámetros. En general, si su vector de entrada es n, entonces el modelo de regresión logística tendrá n + 1 parámetros.

Por supuesto, como siempre en el aprendizaje automático, no hay almuerzo gratis. La representación compacta significa que no puede representar conceptos complejos. Como ejemplo, no puede representar XOR en una regresión logística.

Dado que en una regresión logística el número de parámetros no será alto. Es una técnica de aprendizaje automático de escala moderada que se vuelve engorrosa si tiene más parámetros en su función. Cuanto menos sean los parámetros, hay menos posibilidades de sobreajuste. En la parte superior tiene un parámetro de sesgo para administrar el sobreajuste. Para un no muy delineado, la regresión logística de datos dinámicos no es apropiada y, por lo tanto, tiene la libertad de mantenerla nítida y simple.

More Interesting

¿Cómo escriben las personas pruebas automatizadas para sus algoritmos estocásticos?

¿Cuál es una explicación intuitiva del algoritmo wake-sleep?

¿El desarrollo teórico en el aprendizaje automático está llegando a un punto muerto (significa que no habrá necesidad de continuar)?

¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?

¿Existe un modelo más efectivo que Word2vec desde 2013?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

¿Cuál es la mejor computadora portátil que puedo obtener para aprender el aprendizaje profundo con CUDA?

¿Cuál es la diferencia entre la retropropagación y la retropropagación a través del tiempo?

¿Qué llamarías técnicas de aprendizaje no automático?

¿Cuál es el artículo o recurso web más informativo sobre el modelado similar?

¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

¿Por qué Microsoft decidió usar bosques aleatorios en el Kinect?

¿Los métodos de aprendizaje profundo conducen a avances en el procesamiento del lenguaje natural?

¿Por qué se requieren conocimientos de aprendizaje automático para un periodista de datos? ¿Por qué la exploración y visualización de datos por sí sola no es suficiente para el periodismo de datos?

¿Cómo se puede interpretar el teorema de Bayes en términos de inferir relaciones causales en los datos?