En la selección de características, ¿debemos eliminar siempre todas las características que tienen una alta covarianza entre ellas?

En primer lugar, supongo que te refieres a correlación en lugar de covarianza. Porque la covarianza no es adimensional y depende de las unidades. Por ejemplo, si usa centímetros en lugar de metros, sus valores de covarianza serán más altos. La correlación es normalizada y sin dimensiones.

Y la respuesta es no, no siempre se pueden eliminar las funciones correlacionadas. Debido a que las combinaciones de esas características pueden ser significativas para su tarea, incluso si cada una de ellas no es muy útil y están correlacionadas. A continuación se muestra un ejemplo común:

Como puede ver, las características dadas en los ejes xey están altamente correlacionadas. Pero su combinación lineal (xy) es muy útil en la clasificación en este ejemplo. Por supuesto, este es un caso extremo y no creo que se puedan ver ejemplos tan claros muy a menudo en problemas del mundo real. Aún así, la posibilidad de obtener información de características correlacionadas no se ignora generalmente y se emplean varias técnicas de selección de características o reducción de dimensionalidad (como PCA), en lugar de simplemente descartar características basadas en la correlación.

La alta covarianza no tiene que significar que existe una fuerte correlación. Podría tener dos características con escalas muy diferentes, donde un pequeño cambio en la función a pequeña escala conduce a un gran cambio en la función a gran escala, a pesar de que la correlación es relativamente modesta.

Si el valor absoluto de la correlación entre dos características es 1, probablemente pueda eliminar con seguridad una de ellas. Si la correlación es menor, como digamos 0.8, probablemente sea mejor que guarde ambos, ya que podría perder información útil si omite una.

Dejaré que los genios den una respuesta teóricamente más rigurosa.

Ya tenía una respuesta muy precisa, de Mehmet Ufuk Dalmis, por ejemplo. Me gustaría agregar dos pequeñas cosas.

Primero, si tiene suficientes datos, podría intentar evaluar qué tan dañino es mantener ambas variables. Por ejemplo, con un conjunto de entrenamiento y un conjunto de prueba, te ayudará a ver si estás demasiado en forma.

En segundo lugar, es posible que deba mantener ambas variables porque los usuarios del análisis lo necesitarán. Al principio es muy difícil de aceptar, pero hay momentos en los que debe mantener una variable en un modelo porque, de lo contrario, la gente no usará el modelo en absoluto, incluso si la otra variable bien correlacionada es mejor. Por lo tanto, puede tratar de mantener ambos y evaluar, como se dijo antes, qué tan dañino es mantener ambos.

Siempre es una palabra muy fuerte.

Una característica puede tener un valor agregado único a pesar de estar altamente correlacionada con otra característica. Además, algunos modelos son más susceptibles a estos problemas que otros.

Las características correlacionadas en ingenuos bayes pueden matar la precisión y pueden tener muy poco efecto en un bosque aleatorio.

Los métodos de filtro más avanzados y casi todos los métodos de envoltura resuelven este problema e intentan seleccionar buenas características libremente correlacionadas. Puede leer, por ejemplo, sobre la selección de funciones mRMR como un enfoque clásico.

No exactamente. Puede probar diferentes formas y verificar la precisión de sus modelos.

A veces, las columnas con características de alta covarianza pueden contener información útil que se necesita para hacer que su modelo sea preciso en el nuevo conjunto de datos que se pueden alimentar durante la implementación.

More Interesting

¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

¿Cómo debo trabajar en las estadísticas requeridas para el diseño experimental y el análisis de datos (datos neuronales / datos de comportamiento) en el primer año de posgrado?

¿Sería posible seleccionar un gran asteroide de hielo (fuera del cinturón de asteroides) y propulsarlo hacia Marte, creando así una atmósfera acuosa?

¿Existe una buena biblioteca para los algoritmos de detección de deriva conceptual?

¿Cuáles son algunas necesidades de análisis de datos insatisfechos o de abastecimiento público relacionadas con el problema del cambio climático?

¿Cuál es el alcance de los grandes datos?

¿Cuál es la diferencia entre las notaciones big oh, big omega y big theta?

¿Qué empresas buscan personas en el aprendizaje automático para trabajar de forma remota?

¿Qué es Big Data y cómo puede ser útil?

¿Qué tipo de conocimiento / experiencia se espera de alguien interesado en impulsar la maestría en ciencias de datos / análisis de negocios (y un programa de posgrado similar)?

¿Cuáles son las herramientas de minería / raspado web más comunes utilizadas actualmente?

¿Cuándo puede un algoritmo de clasificación dar un AUC de 1.0 o una clasificación perfecta?

¿Cuál es el mejor curso fuera de línea para big data y data science en Navi Mumbai?

¿Cuáles son algunos ejemplos específicos donde el análisis de datos topológicos (TDA) supera los puntos de referencia estándar de la industria en datos disponibles públicamente?

Quería ser un científico de datos, pero desde que me uní a la industria justo después de los estudiantes universitarios, no obtengo ese tipo de roles. Ir a un MS es muy difícil ahora que ya he pasado algunos años en la industria del software. ¿Qué tengo que hacer?