Cómo analizar un conjunto de datos de viaje que contiene tiempo / modo / ingresos por persona

Un científico de datos pasó 2 semanas analizando datos de Smartmeter (consumo de energía) por cliente. Aislaron la señal de iluminación y determinaron que los clientes caían en dos campamentos, un grupo encendía las luces por la mañana y las apagaba de nuevo por la noche y el otro grupo encendía y apagaba las luces durante el día. Orgullosamente presentando el resultado a su jefe solo para que el jefe se dé vuelta y diga: ‘Así que pasaste dos semanas diciéndome que esta compañía eléctrica tiene clientes residenciales y comerciales, podría haber conseguido que uno de los ingenieros de campo me dijera que si solo les hubiera preguntado “.

Entonces, antes de sumergirse en cualquier modelo matemático, piense en el contexto real del problema.

Suponga que cada fila es una persona única (en lugar de un viaje, debido al porcentaje por modo).

Existe una relación entre la distancia recorrida y el modo de transporte. Es poco probable que alguien con un viaje muy largo (más de 30 km) viaje en bicicleta o caminando. Alguien con un viaje corto de 0 a 4 km tendrá una mayor probabilidad de caminar.

La elección del transporte se verá más afectada por la distancia, por lo que deberá separar el conjunto en categorías por distancia. Luego pruebe la fuerza de la relación entre el ingreso y el modo de transporte. ¿Existe una variable combinada de modo de transporte de distancia que podría crear como compuesto?

Si fuera uno de mis analistas, les pediría más datos; una clasificación de urbano frente a suburbano sería buena. Y agregaría más categorías al modo de transporte, además del tránsito, agregaría los otros modos de transporte público: tren, tren ligero, autobús, taxi. Es más probable que muestren una relación con los ingresos. ¿Podría obtener tiempo de viaje, inicio y finalización de los viajes? Esos podrían arrojar luz sobre los factores humanos en el comportamiento de las personas.

Esto es solo el comienzo, antes de abrir cualquier herramienta de modelado, pensaría en todas las posibilidades que podría hacer con los datos que tiene, y luego los datos que no tiene.

Ja, necesitas dar el contexto. ¿Es esto para una clase de pregrado? ¿Qué métodos aprendiste en esta clase? ¿Es esta una clase de econometría? O una clase de CS?

Lo más básico sería ejecutar cuatro regresiones: una para cada “Porcentaje de tiempo” como su variable del lado izquierdo (y) y las otras dos variables categóricas deben ingresarse como variables binarias (ficticias) en el lado derecho lado. Luego ejecutaría una “prueba F” en las variables binarias que muestran los ingresos.

Alternativamente, debido a que los datos son tan limitados en variables, simplemente podría poner todo en una tabla o gráfico. (Piense en los diferentes niveles de ingresos como columnas o el eje x, y los porcentajes como filas o cuatro secciones en un gráfico de barras. Luego puede repetir el mismo gráfico para las cuatro categorías de distancia).

Pero supongo que eso no es lo que quieres hacer. ¿Quizás este es un ejercicio para los árboles de decisión?

Cuéntanos más sobre el contexto.

Análisis logarítmico lineal de tablas de frecuencia