¿Qué es mejor para el análisis de datos, Python (usando las bibliotecas NumPy, Scipy, etc.) o Hadoop?

Respuesta rápida: Python, por supuesto, porque Hadoop no proporciona las bibliotecas a para el análisis.

Déjame explicarte con más detalles.

Python es un lenguaje de programación como cualquier otro lenguaje como C, R, Java o Perl. Un lenguaje de programación proporciona construcciones tales como variables: primitivas y complejas, capacidad para realizar matemáticas, funciones, bucles y capacidad para interactuar con el sistema.

Al igual que cualquier otro idioma, Python también tiene una gran cantidad de bibliotecas para diversas funciones, como la creación de aplicaciones web, aplicaciones gráficas y análisis de datos.

Mientras que por otro lado tenemos Hadoop que tiene básicamente cuatro componentes principales:

  1. HDFS: un sistema de archivos para almacenar datos en forma de archivos
  2. HILO – Un ejecutor de programa genérico en red
  3. MapReduce: un marco con el que puede ejecutar su lógica utilizando múltiples computadoras
  4. HBase: un almacén de datos para guardar, actualizar, eliminar, ver datos en forma de tabla

El ecosistema Hadoop también tiene otros componentes como Sqoop (para copiar datos rdms), canal (para recopilar datos en HDFS), Oozie (para crear flujos de trabajo) y mahout (para aprendizaje automático).

El hadoop es un conjunto de herramientas que lo ayudan a realizar la computación paralela en un grupo de computadoras.

Además, puede ejecutar su programa python en el clúster hadoop usando Hadoop Streaming.

Entonces, aunque Hadoop es una plataforma, Python es un lenguaje. Es difícil comparar los dos.

Depende del tipo de análisis que intentes hacer. Digamos que quieres trabajar en el Iris Dataset, sklearn está bien para eso. De hecho, dependiendo de lo que intente investigar numpy podría ser suficiente.

En caso de que esté trabajando con algo como WebFace-Database hadoop podría hacer la vida un poco más fácil. Por otra parte, depende de lo que estés tratando de investigar. He descubierto que, a menos que ya tenga una configuración de hadoop en alguna parte, el 90% de las veces una muestra aleatoria del conjunto de datos sirve para los propósitos de la investigación.

También en los eventos en los que necesita usar el paradigma map-reduce, Python tiene el mapa reduce incorporado. Cuando necesite paralelizar esta operación, puede usar Dask.

Como siempre, no hay una herramienta dorada. Usas lo que necesitas para hacer las cosas.

More Interesting

¿Hay algún programa de CS o análisis en línea sobre programación, ciencia de datos y big data con una universidad prestigiosa? Mi presupuesto es de $ 20,000- $ 30,000.

He realizado mi pasantía en una empresa B2B y he realizado algunos análisis de datos como el porcentaje de daños, el retorno al origen y algunos otros. ¿Qué más puedo hacer con estos datos?

¿Quién cifra los datos?

¿Qué será mejor para un empleado de TI con experiencia de 3 años, para seguir un curso a tiempo completo o un curso a tiempo parcial en Data Science?

¿Qué cursos debemos seguir para convertirnos en científicos de datos?

¿Es bueno el programa de maestría en visualización de datos en Parsons School of Design?

¿Cuáles son algunos materiales de lectura de calidad para la ciencia de datos?

¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

¿Cuáles son los casos de uso de Docker en Data Science y Machine Learning?

¿Qué tecnología de big data es mejor para el procesamiento de datos en tiempo real?

¿Cuáles son las preguntas clave al crear un panel de datos?

¿Cómo logra Coffee Meets Bagel tener éxito sin ningún científico de datos?

¿Cómo se puede institucionalizar Analytics en una organización de telecomunicaciones?

¿Esperas que Apple Swift gane impulso en el dominio de aprendizaje automático?

¿Qué proyectos interesantes de análisis de datos se han completado utilizando herramientas de redes sociales?