Como se describe correctamente en la respuesta de Sergül Aydöre a ¿Por qué podría ser preferible incluir menos predictores sobre muchos? Demasiadas características en su hipótesis pueden conducir a un ajuste excesivo y el modelo no funcionará bien con nuevos puntos de datos.
¡Usar también muchas funciones significa obtener más datos! No siempre es posible obtener todos los datos, por lo que los datos faltantes / dispersos pueden ser muy peligrosos para el rendimiento de su modelo.
Para evitar el problema del sobreajuste
- Cómo saber si Deep Learning funcionará mejor para un problema específico, que SVM o bosque aleatorio
- ¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?
- Cómo obtener la distribución de probabilidad de clases con píxeles que son 0 o 255
- Estoy aprendiendo aprendizaje profundo, ¿por qué es útil la matriz y qué es el cálculo?
- ¿Hay algún programa en desarrollo que pueda escuchar un idioma y comenzar a aprenderlo, como en Star Trek?
- Reduzca el número de características seleccionando manualmente solo las características requeridas o usando un algoritmo de selección de modelo.
- Use la regularización: si descarta muchas características que son realmente útiles, entonces la regularización es mucho más útil que simplemente reducir la cantidad de características.