¿Cómo manejan los científicos de datos las tareas de aprendizaje automático con características correlacionadas?

¿Cómo lidiar con las tareas de aprendizaje automático con características correlacionadas?

Existen algunas técnicas que le permiten transformar sus datos en nuevas funciones que no están correlacionadas. Al igual que el análisis de componentes principales (que crea nuevas “variables” que no están correlacionadas).

También puede usar el coeficiente de correlación de Pearson para eliminar características altamente correlacionadas del conjunto de datos. Sin embargo, si su modelo tiene la capacidad de modelar relaciones no lineales entre los datos, tal vez esté mejor con algún coeficiente de correlación no lineal. Hay algunos como: Correlación máxima o el coeficiente de correlación de distancia menos conocido (pero no el peor) .

También hay algunas técnicas que permiten seleccionar “automáticamente” las mejores variables (teóricamente) que permiten explicar la dependiente, sin embargo, debemos tener cuidado con los resultados y, sobre todo, con las opciones de datos que le damos a esas técnicas. Estoy hablando, por ejemplo, de regresión gradual.

Series temporales específicas

Puede usar SVM, redes neuronales y otras técnicas de “aprendizaje automático” en series temporales. No está limitado a los modelos AR.

Si preprocesa las series de tiempo de las acciones en ventanas y clasifica esas ventanas en “subir” y “bajar”, también puede usar técnicas de clasificación binaria para analizar los datos, usando los retrasos de las ventanas. Pero no los modelos AR.

Aprendizaje automáticoCiencia de datos

Related Content

¿Es necesario el aprendizaje automático para el análisis de datos?

¿Qué es un desarrollador de big data?

R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?

Para trabajos de ciencia de datos, ¿serán suficientes SAS y R?

¿La ciencia de datos y la IA están relacionadas de alguna manera?

¿Cómo puedo convertirme en ingeniero de big data en Google?

¿Existe una definición de “Big” en el contexto de “Big Data”? ¿Cuál es exactamente el significado de “Big” desde el punto de vista de la ciencia de datos?

Algunas herramientas eliminan funciones que duplican la utilidad de otras durante un paso de preprocesamiento. Es decir, solo una de las características altamente correlacionadas puede permanecer en el modelo. Otras herramientas requieren que el analista maneje esto a priori.

Gil Martins

More Interesting

¿Cuáles son los beneficios de los diferentes tipos de esquemas en el contexto del almacenamiento de datos?

¿Cuál es el flujo de trabajo habitual de un científico de datos antes de comenzar a analizar un conjunto de datos?

¿Cómo sugeriría a una franquicia dónde abrir una nueva tienda?

¿Qué hizo que Palantir fuera tan exitoso?

Cómo convertir datos categóricos a datos continuos

En la compresión de datos, ¿cómo ayuda la mejora de la SNR a aumentar la tasa?

¿Cuántos datos consume un minuto de una llamada de WhatsApp?

Quiero aprender R & Data Science prácticamente. ¿Pueden ustedes darme su guía?

¿Qué es la minería de datos? ¿Cuál es la necesidad de la minería de datos?

¿Qué es mejor, una maestría en MIS o en ciencia de datos?

Cómo desarrollar la intuición de datos

¿Cuántos científicos de datos (por cualquier nombre) hay hoy?

¿Hay alguna plataforma que genere automáticamente informes de información para los usuarios a partir de una tabla de estadísticas?

¿Cuáles son los mejores equipos de ciencia de datos fuera de los Estados Unidos?

¿Cuál es la diferencia entre un desarrollador de BI y un desarrollador de Big Data?

Web Analytics