Depende del algoritmo que use, realmente, de los supuestos que hace su algoritmo y cómo usa las variables.
Supongamos que usaras un árbol de decisión. Son completamente deterministas en los datos (muy poco fudge aquí), pero es cierto que si una característica es completamente irrelevante (en el contexto de un árbol, lo que supone que dividir el espacio de datos en hiperrectángulos es una buena idea para la tarea en cuestión), siempre tendrán las mismas divisiones. Es decir, si tiene 1000 variables y divide en 15, siempre que tenga esas 15 en un conjunto de 500, 100, 20, hasta 15, el árbol será exactamente el mismo.
Sin embargo, un bosque aleatorio le dará un resultado diferente. Incluso si solo tiene 15 variables divididas de 1000, ya que la selección de variables es estocástica.
- ¿Cuáles son los principales problemas con el uso de la codificación one-hot?
- ¿Cuál es la mejor manera de administrar indicadores de función o alternar características para equipos de desarrollo más grandes?
- Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?
- ¿Qué has aprendido haciendo investigación?
- ¿Cómo afectan las imágenes que se filtran con diferentes filtros de imagen al entrenamiento de las redes neuronales profundas?
Para la regresión lineal o logística, si usa el AIC para la selección del modelo, puede obtener un resultado muy diferente al que usa, por ejemplo, la validación cruzada.
Una variable que es importante para un modelo basado en un árbol podría no ser importante para una regresión lineal.
Realmente depende del propósito, el problema, los datos, el algoritmo utilizado … la lista continúa. Sí, demasiadas características podrían descartar las predicciones. Entonces podría un corte prematuro de características.
(NB La ingeniería de características denota la construcción de nuevas características. La reducción se llama selección de variables o reducción de dimensión. Solo para avisarle).
Apéndice:
Aquí hay un pequeño ejemplo de cómo controlar el problema de la variación de sesgo que se ha mencionado en otra parte simplemente usando un algoritmo diferente. Supongamos que nuestros datos son relativamente “rectangulares” y que los modelos basados en árboles son de alguna manera apropiados.
Un modelo basado en un árbol tiene, en el conjunto de entrenamiento, un sesgo bajo y una gran varianza, por lo que si el conjunto de entrenamiento fuera ligeramente diferente, posiblemente obtendríamos un árbol bastante diferente (o una ruptura hiper-rectangular del espacio de datos).
El embolsado de árboles aumenta el sesgo, pero disminuye la varianza (idealmente).
Convertir los árboles en bosques aleatorios aumenta el sesgo menos que el embolsado (idealmente) y disminuye la varianza al menos tanto como el embolsado (nuevamente, idealmente).