¿Cuáles son algunos proyectos que un estudiante de ciencias de la computación puede hacer en el semestre final en el campo de big data y análisis de datos?

No estoy seguro de la competencia en Python / R / herramienta de análisis de datos que pueda tener durante el semestre final, pero suponiendo que conozca los conceptos básicos del análisis de datos y cualquier herramienta simple para el mismo, recomendaría los siguientes proyectos:

Proyectos de Kaggle : cualquier conjunto de datos en kaggle podría utilizarse para realizar análisis básicos preliminares, así como para el aprendizaje automático avanzado y el modelado de datos. Simplemente busque los datos del sitio web e identifique qué es lo que le gustaría responder a través de esos datos.

Crunchbase : Crunchbase proporciona una API para la extracción de datos relacionados con la empresa. Puede identificar tendencias en las diversas industrias y geografías con respecto a la aparición de nuevas empresas, rondas de inversión, duración de la existencia y estado operativo.

Datos estadísticos de la NBA: el sitio web de CMU tiene datos estadísticos de la NBA. Podría realizar una detección de valores atípicos en los jugadores; Descubre quiénes son los jugadores destacados. Otro proyecto podría ser predecir el resultado del juego.

Datos de tarjetas de crédito: uno de los mayores desafíos para las compañías y bancos de tarjetas de crédito es la detección de fraudes. Según la transacción con tarjeta de crédito (que, por cierto, es big data), la empresa podría estar interesada en identificar a los clientes que probablemente no pagarán. La compañía usará información de transacciones pasadas para predecir el comportamiento futuro. Este es un problema clásico de clasificación.

Motor de recomendación: dado que la mayoría del comercio se está moviendo lentamente a la web, el motor de recomendación tiene una aplicación generalizada en casi todas las industrias en la actualidad. Podría desarrollar diferentes tipos de sistemas de recomendación basados ​​en los siguientes métodos:

  • Filtración colaborativa
  • Filtrado basado en contenido
  • Sistemas de recomendación híbridos

Aquí hay algunas referencias para fuentes de datos e ideas de proyectos:

Conjuntos de datos y sugerencias de proyectos

19 conjuntos de datos públicos gratuitos para su primer proyecto de ciencia de datos

Cinco proyectos de ciencia de datos para aprender ciencia de datos