Estoy de acuerdo con Peter
En la mayoría de los pasos de modelado, tiene el problema de demasiadas observaciones (filas) o demasiadas características (columnas).
- La agrupación aborda el primero. Identifica registros similares en grupos. La media o medoide para cada grupo es su mejor representante. Podrías simplemente usar esos. Esto reduce el número de filas.
- El análisis de componentes principales (PCA) intenta encontrar patrones entre sus características (columnas). Es efectivo si tiene predictores altamente correlacionados y / o demasiados. El PCA reduce el número de columnas al construir componentes principales (sus nuevas columnas) que son una combinación lineal no correlacionada de sus características anteriores.
Por supuesto, puede incluir el clúster como otra característica mientras modela su regresión logística. Sin embargo, el enfoque más común es usar PCA.
- ¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?
- ¿Es posible entrenar modelos de aprendizaje automático de procesamiento de datos en dispositivos locales y enviar solo el modelo entrenado al servidor?
- ¿Qué papel juega la función logística en el algoritmo de regresión logística en el aprendizaje automático?
- ¿Los departamentos de policía en los EE. UU. Usan el aprendizaje automático para encontrar patrones en los datos delictivos?
- ¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?