¿Por qué podría ser preferible incluir menos predictores sobre muchos?

Como se describe correctamente en la respuesta de Sergül Aydöre a ¿Por qué podría ser preferible incluir menos predictores sobre muchos? Demasiadas características en su hipótesis pueden conducir a un ajuste excesivo y el modelo no funcionará bien con nuevos puntos de datos.

¡Usar también muchas funciones significa obtener más datos! No siempre es posible obtener todos los datos, por lo que los datos faltantes / dispersos pueden ser muy peligrosos para el rendimiento de su modelo.

Para evitar el problema del sobreajuste

  1. Reduzca el número de características seleccionando manualmente solo las características requeridas o usando un algoritmo de selección de modelo.
  2. Use la regularización: si descarta muchas características que son realmente útiles, entonces la regularización es mucho más útil que simplemente reducir la cantidad de características.

Esta figura muestra la relación entre el rendimiento de su modelo en función de la complejidad (número de predictores). El error de entrenamiento disminuye a medida que aumenta la complejidad, pero el error de los datos de prueba comienza a aumentar después de algún punto porque su modelo ya no se generaliza a diferentes conjuntos de datos. Queremos que los modelos se apliquen no solo al conjunto exacto sino a la población general de la que provienen los datos de capacitación. Por lo tanto, los modelos más simples que se ajustan bien a los datos son mejores.

Esto reduce su riesgo de sobreajuste. Si tiene muchos predictores, es más fácil ajustar bien sus datos de entrenamiento, pero tiene un modelo que no se generaliza bien a un conjunto de datos más grande.

More Interesting

¿Las redes neuronales son siempre convexas con respecto a los pesos? Y si no, ¿cómo funciona tan bien el descenso de gradiente?

¿Cómo se determina el rango de posibles valores lambda cuando se realiza la validación cruzada en una regresión de lazo?

¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

¿Cuál es el papel de la Inteligencia Artificial en las redes sociales?

Estoy atrapado en la regresión. ¿Qué debo aprender después de esto?

¿Siri es una forma de aprendizaje automático?

¿Qué piensa Yoshua Bengio sobre la idea de un algoritmo de aprendizaje único?

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

¿Qué técnicas utilizadas en el procesamiento del lenguaje natural son aplicables a otras áreas del aprendizaje automático?

¿Cómo aprendiste Machine Lerning?

¿Dónde puedo encontrar excelentes bibliotecas de aprendizaje automático para Java?

¿Cuál es la diferencia entre PyTorch, Caffe y TensorFlow?

¿Cómo se elige una función de activación? He notado que las funciones más utilizadas se parecen, especialmente cerca de 0. ¿Tienen que ajustarse a algún comportamiento específico? ¿Es este un tema de investigación abierto? ¿Hace una gran diferencia en los resultados?

¿Cuál es el papel de la informática en el aprendizaje automático?

¿Cuál puede ser un buen problema de investigación computacional para trabajar con el conjunto de datos de Wikipedia?