Cómo ejecutar la regresión logística en SAS en los datos de una encuesta donde las variables dependientes e independientes son niveles de satisfacción (escala – 0 a 5)

Bueno … no soy un experto y encontré el mismo problema cuando estaba haciendo un proyecto de investigación de mercado en mi universidad. No recuerdo el enfoque exacto que usé en este caso, pero agregaré mis 2 centavos y podría intentar implementarlo, si es útil.

Vea que el problema principal es la naturaleza de la variable que está ordenada por rango (supongo que realizó una encuesta en la que ha puesto la clasificación más baja a la más alta a 0/5) Ahora, si desea ver la relación entre indep vars y dep var; ¿Qué metodología de regresión usarías? No puede usar lineal porque los parámetros no serán AZULES y principalmente su dep var no es continua con valores limitados.

Básicamente, deberías ocuparte tanto de dep como de indep. Para dep var, lo primero que se me ocurre para este tipo de variable es la regresión logística multinomial, donde clasificaría su dep var en 5 categorías. Todavía tengo problemas para comprender un escenario de negocio en el que su variedad estaría en esta escala. Si es posible, intente transformar y usar regresión logística simple con variable binaria.

De todos modos, ahora para indep vars, tendrías que hacer algunas iteraciones. Puede tratar como continuo o hacer bins y reducir categorías (de 5 a 3/2) o crear variables ficticias para cada categoría. La razón es que depende de la naturaleza de los datos, tendría que hacer un análisis bivariado y ver la naturaleza de la relación entre dep var y cada indep var. Dependiendo de esta naturaleza, podría transformar y aumentar la correlación. Luego use esta var transformada en la regresión final.

Además, verifique cuál es su objetivo en este ejercicio de regresión. ¿Es predicción o explicación? Me refiero a si solo desea valores pronosticados y usar esa puntuación más adelante o si desea saber cuál es la contribución y la relación de cada var con dep var.

Sé que me estoy desviando del tema, pero la mejor solución es tratar de obtener algunos resultados y luego validar si está en línea con su hipótesis.

Gracias.

More Interesting

¿Por qué la máquina de Bolzmann restringida se llama memoria asociativa?

¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Cuál es la diferencia entre el análisis factorial y las técnicas de selección de características, como el análisis de componentes principales y la asignación de dirichlet latente?

En weka, ¿qué significan las cuatro opciones de prueba y cuándo las usa?

¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?

¿Cuáles son los algoritmos de aprendizaje de refuerzo más eficientes en datos / muestras?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Cuál es el peor caso de sobreajuste que hayas visto en entornos sociales o psicológicos?

¿Es posible determinar cuánto 'aprende' una red neuronal desde un punto de datos dado en el conjunto de entrenamiento?

Quiero comenzar en PNL. ¿Vale la pena?

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

¿Cuáles son algunos proyectos paralelos de Machine Learning que puedo implementar en mi tiempo libre?

Cómo construir un conjunto de datos para el aprendizaje automático