Bueno … no soy un experto y encontré el mismo problema cuando estaba haciendo un proyecto de investigación de mercado en mi universidad. No recuerdo el enfoque exacto que usé en este caso, pero agregaré mis 2 centavos y podría intentar implementarlo, si es útil.
Vea que el problema principal es la naturaleza de la variable que está ordenada por rango (supongo que realizó una encuesta en la que ha puesto la clasificación más baja a la más alta a 0/5) Ahora, si desea ver la relación entre indep vars y dep var; ¿Qué metodología de regresión usarías? No puede usar lineal porque los parámetros no serán AZULES y principalmente su dep var no es continua con valores limitados.
Básicamente, deberías ocuparte tanto de dep como de indep. Para dep var, lo primero que se me ocurre para este tipo de variable es la regresión logística multinomial, donde clasificaría su dep var en 5 categorías. Todavía tengo problemas para comprender un escenario de negocio en el que su variedad estaría en esta escala. Si es posible, intente transformar y usar regresión logística simple con variable binaria.
- ¿Cuándo es preferible usar árboles de regresión en el aprendizaje automático?
- ¿Cómo se implementa el aprendizaje profundo en Amazon Go (tiendas de comestibles especiales en las que recoges lo que quieras y luego te vas sin esperar a pagar)?
- ¿Qué conocimientos de matemática / estadística y CS debo dominar (no matemático / stat / CS, pero graduado en ingeniería) para carrera / investigación en aprendizaje automático?
- ¿Hay algún resumen de las mejores modelos para el premio de Netflix? ¿Cuáles son las ideas de alto nivel e intuitivas detrás de los modelos ganadores que finalmente fueron utilizados en el aprendizaje conjunto por los mejores equipos?
- ¿Cuáles son las ventajas y desventajas de cada método de regresión no lineal existente?
De todos modos, ahora para indep vars, tendrías que hacer algunas iteraciones. Puede tratar como continuo o hacer bins y reducir categorías (de 5 a 3/2) o crear variables ficticias para cada categoría. La razón es que depende de la naturaleza de los datos, tendría que hacer un análisis bivariado y ver la naturaleza de la relación entre dep var y cada indep var. Dependiendo de esta naturaleza, podría transformar y aumentar la correlación. Luego use esta var transformada en la regresión final.
Además, verifique cuál es su objetivo en este ejercicio de regresión. ¿Es predicción o explicación? Me refiero a si solo desea valores pronosticados y usar esa puntuación más adelante o si desea saber cuál es la contribución y la relación de cada var con dep var.
Sé que me estoy desviando del tema, pero la mejor solución es tratar de obtener algunos resultados y luego validar si está en línea con su hipótesis.
Gracias.