¿Cuál es el proceso para realizar algunos proyectos pequeños en componentes de big data?

Gracias por el A2A. Como ya se ha dicho, no hay nada que le impida descargar todos los componentes y herramientas necesarios a su alrededor.

Descargue la VM de inicio rápido de Cloudera para configurar rápidamente un clúster Hadoop de un solo nodo con todos los paquetes que menciona. Si aún no tiene un software de virtualización en su máquina, puede descargar Virtual Box de forma gratuita. Se ejecuta en Windows, Linux y OS X.

Una vez que haya creado el entorno virtual, puede comenzar a jugar con él. Consulte la página de Data Science Central sobre conjuntos de datos de Big Data disponibles de forma gratuita.

También puede consultar KDNuggets para conjuntos de datos o tutoriales o dirigirse a Kaggle para obtener más conjuntos de datos y competencias de ciencia de datos.

Si le gusta un enfoque más estructurado y es completamente nuevo en la ecosfera de Big Data, le recomiendo la Especialización en Big Data de UC San Diego en Coursera. Cubre las bases de datos Spark, Hive, Pig, Hadoop, Graph y más. Es fácil de seguir y proporciona conocimientos teóricos y prácticos (prácticos).

no hay nada que le impida instalar estas herramientas que mencionó en su propia computadora de desarrollo de un solo nodo y comenzar a experimentar y desarrollarlas. De hecho, es lo que hacen muchos desarrolladores cuando desarrollan su solución de big data antes de pasar al clúster real.