¿Qué conjuntos de datos tienen variables categóricas y funcionarán bien con regresión lineal?

Las variables categóricas pueden funcionar bien con la regresión si se ordenan naturalmente en un sentido significativo.

Por ejemplo: en los EE. UU., A menudo las personas reciben calificaciones de letras A, B, C, D y luego los promedios de calificaciones se calculan haciendo A = 4, B = 3, C = 2, D = 1. Tenga en cuenta que un GPA es una media aritmética y, por lo tanto, una regresión trivial con solo la intercepción.

Somos capaces (o nos permitimos; podría ser trabajo cuestionar por qué C es dos veces D, pero A es solo un 33% mejor que B) porque esperamos que los mismos factores que diferencian a un estudiante C de un estudiante D (digamos, cantidad de horas estudiadas) también diferencian a un estudiante B de un estudiante C y así sucesivamente.

(En un nivel algo filosófico, todos los regresores continuos son categóricos ponderados, no solo el coeficiente intelectual y las puntuaciones de depresión / manía y cosas similares, sino también índices económicos, donde las canastas de diferentes productos se ponderan por precio, o continuos discretizados, como mediciones físicas) .

Quizás el conjunto de datos Miles-Per-Gas Auto MPG Data Set,

Tiene una combinación de características reales / categóricas para un problema de regresión.

More Interesting

¿Cómo se ha reflejado la revolución de los grandes datos en otros países además de los Estados Unidos?

¿Cuáles son algunos métodos básicos / comunes utilizados para resumir datos?

Como uno de los primeros practicantes de inteligencia artificial y reconocimiento de voz, ¿qué piensa James Baker del rumor en torno al aprendizaje automático y la ciencia de datos en la década de 2010?

¿Qué sigue para los científicos de datos: cálculo multivariable, álgebra lineal o Python?

Cómo dominar la programación de Python para trabajos de ciencia de datos

¿Vender información de los datos de usuario extraídos es tan malo (o ilegal) como vender los datos de usuario en sí?

¿Qué es la ciencia de datos y cómo se relaciona Python con ella?

Para la validación cruzada K-fold, ¿qué k se debe seleccionar?

¿Puede la ciencia de datos ayudar en el dominio de la ley? ¿El sistema judicial indio adoptará / aceptará dicha herramienta, ya que este será un cambio importante?

¿Cómo explicaría al público la importancia de generar ideas a partir de los datos?

¿Cuál es el futuro de MIS u operadores de datos?

A los 28 años, y aprendiendo a programar. ¿Me he perdido la oportunidad de conseguir un trabajo en ciencia de datos y aprendizaje automático en el Reino Unido?

¿Puede alguien de una experiencia que no sea de software aprender o cambiar a análisis de big data?

Quería obtener el certificado de ciencia de datos de Harvard. ¿Las materias enseñadas en este curso de certificación sientan una base sólida requerida para cambiar de carrera a la corriente de la ciencia de datos?

¿Cómo puede un servicio de coincidencia de datos ayudarlo a obtener una ventaja competitiva?