No estoy seguro de la competencia en Python / R / herramienta de análisis de datos que pueda tener durante el semestre final, pero suponiendo que conozca los conceptos básicos del análisis de datos y cualquier herramienta simple para el mismo, recomendaría los siguientes proyectos:
Proyectos de Kaggle : cualquier conjunto de datos en kaggle podría utilizarse para realizar análisis básicos preliminares, así como para el aprendizaje automático avanzado y el modelado de datos. Simplemente busque los datos del sitio web e identifique qué es lo que le gustaría responder a través de esos datos.
Crunchbase : Crunchbase proporciona una API para la extracción de datos relacionados con la empresa. Puede identificar tendencias en las diversas industrias y geografías con respecto a la aparición de nuevas empresas, rondas de inversión, duración de la existencia y estado operativo.
- ¿Deberían los individuos ser compensados por los datos que generan? ¿Podría ser posible un negocio que facilite la recopilación y generación de datos a través de la participación individual en análisis e investigación de big data?
- ¿Por qué proceso decide si usar R o Python (Pandas) para leer y analizar grandes conjuntos de datos con formato CSV?
- ¿Qué trabajo se da a los estudiantes de primer año en el análisis de datos?
- Cómo probar A / B una nueva aplicación de mensajería sin restringir con qué miembros pueden hablar (es decir, los miembros en el grupo de "prueba" aún pueden enviar mensajes a los miembros en el grupo de "control")
- ¿Cuándo explotará la burbuja de ciencia de datos?
Datos estadísticos de la NBA: el sitio web de CMU tiene datos estadísticos de la NBA. Podría realizar una detección de valores atípicos en los jugadores; Descubre quiénes son los jugadores destacados. Otro proyecto podría ser predecir el resultado del juego.
Datos de tarjetas de crédito: uno de los mayores desafíos para las compañías y bancos de tarjetas de crédito es la detección de fraudes. Según la transacción con tarjeta de crédito (que, por cierto, es big data), la empresa podría estar interesada en identificar a los clientes que probablemente no pagarán. La compañía usará información de transacciones pasadas para predecir el comportamiento futuro. Este es un problema clásico de clasificación.
Motor de recomendación: dado que la mayoría del comercio se está moviendo lentamente a la web, el motor de recomendación tiene una aplicación generalizada en casi todas las industrias en la actualidad. Podría desarrollar diferentes tipos de sistemas de recomendación basados en los siguientes métodos:
- Filtración colaborativa
- Filtrado basado en contenido
- Sistemas de recomendación híbridos
Aquí hay algunas referencias para fuentes de datos e ideas de proyectos:
Conjuntos de datos y sugerencias de proyectos
19 conjuntos de datos públicos gratuitos para su primer proyecto de ciencia de datos
Cinco proyectos de ciencia de datos para aprender ciencia de datos