¿Cuál es la diferencia entre el análisis de datos con Python y el análisis de datos con Python en Apache Spark?

Su pregunta es un poco confusa, responderé de la manera en que Python es útil en el análisis de datos y el marco de Apache.

1. ¿Cómo se usa Python para el análisis de datos?

Data Wrangling se realiza con la ayuda de numpy e Ipython.

Numpy: escriba código superrápido con Numerical Python, un paquete para almacenar y hacer cálculos de manera eficiente con grandes cantidades de datos.

Matplotlib: cree diferentes tipos de visualizaciones según el mensaje que desee transmitir. Aprenda a construir parcelas complejas y personalizadas basadas en datos reales.

Controle el flujo y los Pandas: escriba construcciones condicionales para ajustar la ejecución de sus scripts y conozca el DataFrame de Pandas: la estructura de datos clave para Data Science en Python.

Para obtener más información, visite: un tutorial completo para aprender ciencia de datos con Python desde cero

2. Análisis de datos usando Python en Apache Spark?

La API de Spark Python (PySpark) expone el modelo de programación de Spark a Python.

Ambos códigos de Python son códigos similares. Python es muy bueno si quieres jugar con Spark. Si quieres una solución de producción, debes elegir scala in spark.

Código de Python de recuento de palabras en Spark

text_file = sc.textFile (“http: // hdfs: // …”) recuentos = text_file.flatMap (lambda line: line.split (“”)) \ .map (lambda word: (word, 1)) \. reduceByKey (lambda a, b: a + b) count.saveAsTextFile (“http: // hdfs: // …”)

Simple Word Count en python

file = open (“D: \\ zzzz \\ names2.txt”, “r +”) wordcount = {} para word en file.read (). split (): si la palabra no está en wordcount: wordcount [word] = 1 else: wordcount [word] + = 1 para k, v en wordcount.items (): print k, v

Fuente – Apache Spark

La diferencia es que uno está haciendo análisis local y el otro (Spark) está ejecutando algoritmos en un clúster Spark. El código es diferente, aunque solo sea porque usará módulos Spark.

Lo que debe tener en cuenta es que Spark está resolviendo un problema específico que consiste en ejecutar el análisis en muchas máquinas para hacerlo más rápido y / o abordar grandes conjuntos de datos. Esto significa que lo que se espera que logre un clúster de Spark, en principio, ni siquiera debería ser posible localmente.