¿Por qué podría ser preferible incluir menos predictores sobre muchos?

Como se describe correctamente en la respuesta de Sergül Aydöre a ¿Por qué podría ser preferible incluir menos predictores sobre muchos? Demasiadas características en su hipótesis pueden conducir a un ajuste excesivo y el modelo no funcionará bien con nuevos puntos de datos.

¡Usar también muchas funciones significa obtener más datos! No siempre es posible obtener todos los datos, por lo que los datos faltantes / dispersos pueden ser muy peligrosos para el rendimiento de su modelo.

Para evitar el problema del sobreajuste

Reduzca el número de características seleccionando manualmente solo las características requeridas o usando un algoritmo de selección de modelo.
Use la regularización: si descarta muchas características que son realmente útiles, entonces la regularización es mucho más útil que simplemente reducir la cantidad de características.

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

¿Qué cobran por hora los contratistas en aprendizaje automático?

¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?

¿Puede un robot de IA basado en Quora pasar la prueba de Turing en el futuro?

¿Cómo serían comparables las características de codificación dispersa y RBM (con una restricción de dispersión)?

Esta figura muestra la relación entre el rendimiento de su modelo en función de la complejidad (número de predictores). El error de entrenamiento disminuye a medida que aumenta la complejidad, pero el error de los datos de prueba comienza a aumentar después de algún punto porque su modelo ya no se generaliza a diferentes conjuntos de datos. Queremos que los modelos se apliquen no solo al conjunto exacto sino a la población general de la que provienen los datos de capacitación. Por lo tanto, los modelos más simples que se ajustan bien a los datos son mejores.

Humza Iqbal

Esto reduce su riesgo de sobreajuste. Si tiene muchos predictores, es más fácil ajustar bien sus datos de entrenamiento, pero tiene un modelo que no se generaliza bien a un conjunto de datos más grande.

Humza Iqbal

More Interesting

¿Las redes neuronales son siempre convexas con respecto a los pesos? Y si no, ¿cómo funciona tan bien el descenso de gradiente?

¿Cómo se determina el rango de posibles valores lambda cuando se realiza la validación cruzada en una regresión de lazo?

¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

¿Cuál es el papel de la Inteligencia Artificial en las redes sociales?

Estoy atrapado en la regresión. ¿Qué debo aprender después de esto?

¿Siri es una forma de aprendizaje automático?

¿Qué piensa Yoshua Bengio sobre la idea de un algoritmo de aprendizaje único?

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

¿Qué técnicas utilizadas en el procesamiento del lenguaje natural son aplicables a otras áreas del aprendizaje automático?

¿Cómo aprendiste Machine Lerning?