Quiero ser un científico de datos. ¿Qué tipo de trabajo puedo hacer para mi tesis después de aprender Hadoop?

Hadoop y Mapreduce son solo herramientas que se utilizan en el procesamiento de datos. Hay muchos otros que puedes ver aquí: la respuesta de Pathan Karimkhan a ¿Cómo aprendo tecnologías de big data?

Por lo tanto, aprender hadoop o MP no justifica nada para convertirse en un científico de datos.

Lo que realmente necesita para alcanzar su objetivo es el conocimiento básico de Bigdata, PNL, aprendizaje automático y cómo aplicar este conocimiento para aumentar el negocio y resolver problemas comerciales. Además de esto, también necesita una base sólida, por lo general en informática y aplicaciones, modelado, estadísticas, análisis y matemáticas.

Debe trabajar en un proyecto orientado a la investigación de minerales donde pueda aplicar los tres dominios mencionados. Aquí hay algunos proyectos que puede llevar a cabo.

  1. Análisis de sentimientos para twitter, artículos web : identifique todos los sentimientos para artículos web, revisión de productos, revisión de películas, tweets. Se puede utilizar un enfoque basado en léxico o técnicas de aprendizaje automático
  2. Clasificación / resumen de artículos web : utilice la técnica de agrupación / clasificación para clasificar el artículo web, realice análisis semánticos para resumir los artículos
  3. Sistema de recomendaciones basado en los perfiles de redes sociales del usuario : utilice la API de redes sociales, recopile el interés del usuario de Facebook, Twitter, etc. implemente el sistema de recomendación para el interés del usuario
  4. Clasificación de tweets y detección de tendencias: clasifique los tweets para deportes, negocios, política, entretenimiento, etc. y detecte tweets de tendencias en esos dominios
  5. Predicción de revisión de películas: use críticas de películas en línea para predecir críticas de nuevas películas.
  6. Resumir reseñas de restaurantes: tome una lista de reseñas sobre un restaurante y genere un único resumen en inglés para ese restaurante.
  7. AutoBot: crea un sistema que pueda mantener una conversación contigo. El usuario escribe mensajes y su sistema responde en función del texto del usuario. Muchos enfoques aquí … podría usar un gran corpus de Twitter y hacer similitud de lenguaje
  8. Sistema de noticias basado en Twitter : recopile tweets para varias categorías cada hora, base diaria, identifique debates de tendencias, realice análisis semánticos y cree un sistema de noticias (consulte el producto Frrole)

Aquí hay algunos conjuntos de datos que he compilado. ¿Dónde puedo obtener un conjunto de datos que contenga texto de artículos, libros, etc.?