¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?

Estoy de acuerdo con Peter

En la mayoría de los pasos de modelado, tiene el problema de demasiadas observaciones (filas) o demasiadas características (columnas).

La agrupación aborda el primero. Identifica registros similares en grupos. La media o medoide para cada grupo es su mejor representante. Podrías simplemente usar esos. Esto reduce el número de filas.
El análisis de componentes principales (PCA) intenta encontrar patrones entre sus características (columnas). Es efectivo si tiene predictores altamente correlacionados y / o demasiados. El PCA reduce el número de columnas al construir componentes principales (sus nuevas columnas) que son una combinación lineal no correlacionada de sus características anteriores.

Por supuesto, puede incluir el clúster como otra característica mientras modela su regresión logística. Sin embargo, el enfoque más común es usar PCA.

Análisis de conglomeradosAprendizaje automáticoestadísticasRegresiónRegresión logística

¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?

¿Cómo se explica el algoritmo de propagación de creencias en las redes bayesianas?

¿Puedo tomar el curso de aprendizaje automático de Andrew Ng siendo un estudiante de secundaria con algo de experiencia en programación y sin conocimientos avanzados de matemáticas?

¿Cuál es la función de las máquinas restringidas de Boltzmann para el filtrado colaborativo?

¿Cuáles son las diversas cosas que los chinos han inventado, y son mejores que Japón o los EE. UU. (Mejor significa no solo más en cantidad, sino también en calidad)?

Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?

Cuando desee utilizar los clústeres en una regresión logística. Lo siento, pero eso es lo mejor que puedo hacer por una respuesta.

La agrupación agrupa a los sujetos (personas, ratas, corporaciones, lo que sea) en grupos. Idealmente, la composición de esos grupos ilumina algo sobre la naturaleza de la muestra y la población. Luego, podría usar esos clústeres como una variable independiente en una regresión logística.

Peter Flom

More Interesting

¿Cuál es el mejor enfoque para medir la "calidad de las características" en una red neuronal?

¿Se utilizan algoritmos evolutivos como PSO en el aprendizaje profundo para encontrar pesos óptimos?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

Veo que la mayoría de las API de Machine Learning están en Python, algunas usan C o C ++ bajo el capó. ¿Por qué los desarrolladores de framework no exponen las API de C ++?

¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?

Cómo crear un motor de búsqueda médica utilizando el aprendizaje automático en Java

¿Qué trabajo se ha hecho para aplicar la detección de nuevos eventos a eventos sociales en los que los usuarios estarían interesados (es decir, conciertos)?

¿Qué es un 'descriptor' en el contexto de una transformación de característica invariante de escala (SIFT)?