Un científico de datos pasó 2 semanas analizando datos de Smartmeter (consumo de energía) por cliente. Aislaron la señal de iluminación y determinaron que los clientes caían en dos campamentos, un grupo encendía las luces por la mañana y las apagaba de nuevo por la noche y el otro grupo encendía y apagaba las luces durante el día. Orgullosamente presentando el resultado a su jefe solo para que el jefe se dé vuelta y diga: ‘Así que pasaste dos semanas diciéndome que esta compañía eléctrica tiene clientes residenciales y comerciales, podría haber conseguido que uno de los ingenieros de campo me dijera que si solo les hubiera preguntado “.
Entonces, antes de sumergirse en cualquier modelo matemático, piense en el contexto real del problema.
Suponga que cada fila es una persona única (en lugar de un viaje, debido al porcentaje por modo).
- ¿Cuál es la diferencia entre boost, ensemble, bootstrap y bagging?
- Cómo ingresar al campo de la ciencia de datos
- ¿Cuáles son algunos buenos libros que tratan sobre ciencia de datos usando Python? ¿Qué versión de python es más adecuada para ello?
- ¿Qué es una potencial tesis maestra de minería de datos?
- ¿Qué debo estudiar más si quiero ser un analista / científico de datos?
Existe una relación entre la distancia recorrida y el modo de transporte. Es poco probable que alguien con un viaje muy largo (más de 30 km) viaje en bicicleta o caminando. Alguien con un viaje corto de 0 a 4 km tendrá una mayor probabilidad de caminar.
La elección del transporte se verá más afectada por la distancia, por lo que deberá separar el conjunto en categorías por distancia. Luego pruebe la fuerza de la relación entre el ingreso y el modo de transporte. ¿Existe una variable combinada de modo de transporte de distancia que podría crear como compuesto?
Si fuera uno de mis analistas, les pediría más datos; una clasificación de urbano frente a suburbano sería buena. Y agregaría más categorías al modo de transporte, además del tránsito, agregaría los otros modos de transporte público: tren, tren ligero, autobús, taxi. Es más probable que muestren una relación con los ingresos. ¿Podría obtener tiempo de viaje, inicio y finalización de los viajes? Esos podrían arrojar luz sobre los factores humanos en el comportamiento de las personas.
Esto es solo el comienzo, antes de abrir cualquier herramienta de modelado, pensaría en todas las posibilidades que podría hacer con los datos que tiene, y luego los datos que no tiene.