¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?

Estoy de acuerdo con Peter

En la mayoría de los pasos de modelado, tiene el problema de demasiadas observaciones (filas) o demasiadas características (columnas).

  • La agrupación aborda el primero. Identifica registros similares en grupos. La media o medoide para cada grupo es su mejor representante. Podrías simplemente usar esos. Esto reduce el número de filas.
  • El análisis de componentes principales (PCA) intenta encontrar patrones entre sus características (columnas). Es efectivo si tiene predictores altamente correlacionados y / o demasiados. El PCA reduce el número de columnas al construir componentes principales (sus nuevas columnas) que son una combinación lineal no correlacionada de sus características anteriores.

Por supuesto, puede incluir el clúster como otra característica mientras modela su regresión logística. Sin embargo, el enfoque más común es usar PCA.

Cuando desee utilizar los clústeres en una regresión logística. Lo siento, pero eso es lo mejor que puedo hacer por una respuesta.

La agrupación agrupa a los sujetos (personas, ratas, corporaciones, lo que sea) en grupos. Idealmente, la composición de esos grupos ilumina algo sobre la naturaleza de la muestra y la población. Luego, podría usar esos clústeres como una variable independiente en una regresión logística.

More Interesting

¿Cuál es el mejor enfoque para medir la "calidad de las características" en una red neuronal?

¿Se utilizan algoritmos evolutivos como PSO en el aprendizaje profundo para encontrar pesos óptimos?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

Veo que la mayoría de las API de Machine Learning están en Python, algunas usan C o C ++ bajo el capó. ¿Por qué los desarrolladores de framework no exponen las API de C ++?

¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?

Cómo crear un motor de búsqueda médica utilizando el aprendizaje automático en Java

¿Qué trabajo se ha hecho para aplicar la detección de nuevos eventos a eventos sociales en los que los usuarios estarían interesados ​​(es decir, conciertos)?

¿Qué es un 'descriptor' en el contexto de una transformación de característica invariante de escala (SIFT)?

Cómo decidir el tema de mi interés de investigación para obtener un doctorado en visión artificial y aprendizaje automático

¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

¿Cuál es el potencial empresarial del aprendizaje automático / inteligencia artificial?

Cómo evaluar los mejores resultados posibles para un clasificador SVM

¿Qué es el aprendizaje profundo para un principiante?