¿Cómo manejan los científicos de datos las tareas de aprendizaje automático con características correlacionadas?

¿Cómo lidiar con las tareas de aprendizaje automático con características correlacionadas?

Existen algunas técnicas que le permiten transformar sus datos en nuevas funciones que no están correlacionadas. Al igual que el análisis de componentes principales (que crea nuevas “variables” que no están correlacionadas).

También puede usar el coeficiente de correlación de Pearson para eliminar características altamente correlacionadas del conjunto de datos. Sin embargo, si su modelo tiene la capacidad de modelar relaciones no lineales entre los datos, tal vez esté mejor con algún coeficiente de correlación no lineal. Hay algunos como: Correlación máxima o el coeficiente de correlación de distancia menos conocido (pero no el peor) .

También hay algunas técnicas que permiten seleccionar “automáticamente” las mejores variables (teóricamente) que permiten explicar la dependiente, sin embargo, debemos tener cuidado con los resultados y, sobre todo, con las opciones de datos que le damos a esas técnicas. Estoy hablando, por ejemplo, de regresión gradual.

Series temporales específicas

Puede usar SVM, redes neuronales y otras técnicas de “aprendizaje automático” en series temporales. No está limitado a los modelos AR.

Si preprocesa las series de tiempo de las acciones en ventanas y clasifica esas ventanas en “subir” y “bajar”, también puede usar técnicas de clasificación binaria para analizar los datos, usando los retrasos de las ventanas. Pero no los modelos AR.

Algunas herramientas eliminan funciones que duplican la utilidad de otras durante un paso de preprocesamiento. Es decir, solo una de las características altamente correlacionadas puede permanecer en el modelo. Otras herramientas requieren que el analista maneje esto a priori.