Cuanto mayor sea el número de parámetros en un sistema, mayores serán las posibilidades de sobreajuste. Si tiene 1 millón de parámetros, hay muchas más posibilidades de sobreajuste que si tiene 10. ¿Por qué? Porque la probabilidad de encontrar una hipótesis que explique los datos de manera sobreajustada en 10 dimensiones es mucho menor. Obviamente, si desea ser deliberadamente sangriento al respecto, podría crear un algoritmo que se ajuste demasiado incluso si tuviera dimensiones más bajas, pero suponiendo que deseara optimizar el rendimiento, es poco probable.
Los modelos de regresión logística tienen muy pocos parámetros. En general, si su vector de entrada es n, entonces el modelo de regresión logística tendrá n + 1 parámetros.
Por supuesto, como siempre en el aprendizaje automático, no hay almuerzo gratis. La representación compacta significa que no puede representar conceptos complejos. Como ejemplo, no puede representar XOR en una regresión logística.
- ¿El aprendizaje automático es malo para la economía?
- ¿Cuál es el mejor algoritmo para implementar un reconocimiento de voz robusto en entornos ruidosos?
- Cómo explicar claramente el aprendizaje profundo a alguien con antecedentes matemáticos limitados
- Cómo entrenar un modelo word2vec como GoogleNews-vectors-negative300.bin para francés
- Quiero aprender el procesamiento del lenguaje natural en CMU. ¿Es mejor tomarlo como un estudiante de CS o tomarlo como un estudiante de lingüística (como una electiva)?