Cómo analizar un conjunto de datos de viaje que contiene tiempo / modo / ingresos por persona

Un científico de datos pasó 2 semanas analizando datos de Smartmeter (consumo de energía) por cliente. Aislaron la señal de iluminación y determinaron que los clientes caían en dos campamentos, un grupo encendía las luces por la mañana y las apagaba de nuevo por la noche y el otro grupo encendía y apagaba las luces durante el día. Orgullosamente presentando el resultado a su jefe solo para que el jefe se dé vuelta y diga: ‘Así que pasaste dos semanas diciéndome que esta compañía eléctrica tiene clientes residenciales y comerciales, podría haber conseguido que uno de los ingenieros de campo me dijera que si solo les hubiera preguntado “.

Entonces, antes de sumergirse en cualquier modelo matemático, piense en el contexto real del problema.

Suponga que cada fila es una persona única (en lugar de un viaje, debido al porcentaje por modo).

Existe una relación entre la distancia recorrida y el modo de transporte. Es poco probable que alguien con un viaje muy largo (más de 30 km) viaje en bicicleta o caminando. Alguien con un viaje corto de 0 a 4 km tendrá una mayor probabilidad de caminar.

La elección del transporte se verá más afectada por la distancia, por lo que deberá separar el conjunto en categorías por distancia. Luego pruebe la fuerza de la relación entre el ingreso y el modo de transporte. ¿Existe una variable combinada de modo de transporte de distancia que podría crear como compuesto?

Si fuera uno de mis analistas, les pediría más datos; una clasificación de urbano frente a suburbano sería buena. Y agregaría más categorías al modo de transporte, además del tránsito, agregaría los otros modos de transporte público: tren, tren ligero, autobús, taxi. Es más probable que muestren una relación con los ingresos. ¿Podría obtener tiempo de viaje, inicio y finalización de los viajes? Esos podrían arrojar luz sobre los factores humanos en el comportamiento de las personas.

Esto es solo el comienzo, antes de abrir cualquier herramienta de modelado, pensaría en todas las posibilidades que podría hacer con los datos que tiene, y luego los datos que no tiene.

Análisis de datosAprendizaje automáticoBig DataCiencia deConjuntos de datosdatosEstadísticaMinería de datosRRegresiónVisualización de datos

Related Content

¿Por qué los algoritmos de aprendizaje automático funcionan mejor con datos no correlacionados? ¿Qué sucede cuando normalizamos las funciones?

Cómo conseguir un trabajo de aprendizaje automático en 9 meses

¿Cómo es más útil el Big Data que otros conjuntos de datos?

¿Cómo es la práctica en Facebook como científico de datos?

¿Cuáles son los mejores paquetes de R? ¿Por qué?

¿Cuáles son las 5 principales ventajas principales de Big Data?

¿Qué es la pérdida de registro en las competiciones de Kaggle?

Ja, necesitas dar el contexto. ¿Es esto para una clase de pregrado? ¿Qué métodos aprendiste en esta clase? ¿Es esta una clase de econometría? O una clase de CS?

Lo más básico sería ejecutar cuatro regresiones: una para cada “Porcentaje de tiempo” como su variable del lado izquierdo (y) y las otras dos variables categóricas deben ingresarse como variables binarias (ficticias) en el lado derecho lado. Luego ejecutaría una “prueba F” en las variables binarias que muestran los ingresos.

Alternativamente, debido a que los datos son tan limitados en variables, simplemente podría poner todo en una tabla o gráfico. (Piense en los diferentes niveles de ingresos como columnas o el eje x, y los porcentajes como filas o cuatro secciones en un gráfico de barras. Luego puede repetir el mismo gráfico para las cuatro categorías de distancia).

Pero supongo que eso no es lo que quieres hacer. ¿Quizás este es un ejercicio para los árboles de decisión?

Cuéntanos más sobre el contexto.

Gam Dias

Análisis logarítmico lineal de tablas de frecuencia

Gam Dias

More Interesting

Cómo aplicar el análisis de datos en la gestión financiera y el análisis financiero

¿En qué se diferencian los proyectos de aprendizaje automático de los proyectos de ciencia de datos?

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

¿Cuáles son hermosos ejemplos / aplicaciones de distribuciones de probabilidad complejas en la vida real?

¿Cuáles son algunos buenos libros para el análisis de datos con R?

¿Cuál puede ser un buen comienzo para una persona que no es de TI como yo en el campo de los datos?

¿Es bueno aprender a almacenar datos?

¿Cuáles son los principales tipos diferentes de diagramas de flujo?

¿Cuál es la mejor computadora portátil para un científico de datos?

¿Cuáles son los cursos requeridos para la ciencia de datos?

¿Julia (lenguaje de programación) está creciendo rápidamente?

¿Addepar tiene roles de tipo científico de datos?

¿Debo aprender a fondo la ciencia de datos o la nube? ¿Qué paga más en estos días?

¿Existe alguna buena información para el aprendizaje automático de pronóstico de demanda de capacitación? Estoy buscando datos de ventas de series temporales con muchos atributos.

¿Cómo puede alguien que tiene una formación matemática decente pero cero experiencia en programación convertirse en un gran científico de datos?

Web Analytics