¿Cuál es la diferencia entre el análisis de datos con Python y el análisis de datos con Python en Apache Spark?

Su pregunta es un poco confusa, responderé de la manera en que Python es útil en el análisis de datos y el marco de Apache.

1. ¿Cómo se usa Python para el análisis de datos?

Data Wrangling se realiza con la ayuda de numpy e Ipython.

Entre la codificación y la minería de datos, ¿qué es un buen trabajo?
En este mundo de análisis de datos de autoservicio, ¿cuál es el papel del profesional de datos de TI?
Cómo mejorar sus habilidades de análisis de datos a diario
Para los científicos de datos, ¿qué lenguaje es más exigente, R o Python?
¿Qué piensan los científicos de datos del nuevo programa de Maestría en Ciencias de Datos de la Universidad de Columbia Británica?

Numpy: escriba código superrápido con Numerical Python, un paquete para almacenar y hacer cálculos de manera eficiente con grandes cantidades de datos.

Matplotlib: cree diferentes tipos de visualizaciones según el mensaje que desee transmitir. Aprenda a construir parcelas complejas y personalizadas basadas en datos reales.

Controle el flujo y los Pandas: escriba construcciones condicionales para ajustar la ejecución de sus scripts y conozca el DataFrame de Pandas: la estructura de datos clave para Data Science en Python.

Para obtener más información, visite: un tutorial completo para aprender ciencia de datos con Python desde cero

2. Análisis de datos usando Python en Apache Spark?

La API de Spark Python (PySpark) expone el modelo de programación de Spark a Python.

Ambos códigos de Python son códigos similares. Python es muy bueno si quieres jugar con Spark. Si quieres una solución de producción, debes elegir scala in spark.

Código de Python de recuento de palabras en Spark

text_file = sc.textFile (“http: // hdfs: // …”) recuentos = text_file.flatMap (lambda line: line.split (“”)) \ .map (lambda word: (word, 1)) \. reduceByKey (lambda a, b: a + b) count.saveAsTextFile (“http: // hdfs: // …”)

Simple Word Count en python

file = open (“D: \\ zzzz \\ names2.txt”, “r +”) wordcount = {} para word en file.read (). split (): si la palabra no está en wordcount: wordcount [word] = 1 else: wordcount [word] + = 1 para k, v en wordcount.items (): print k, v

Fuente – Apache Spark