Con el desarrollo de marcos informáticos escalables como TensorFlow y Spark, ¿seguirán siendo relevantes los marcos de una sola máquina? NumPy podría ser solo API.

El paradigma informático de “máquina única” no ha perdido nada de su relevancia. Es por eso que las plataformas distribuidas como Spark y Storm se esfuerzan por ocultar la complejidad de distribución detrás de los dialectos de una sola máquina completa de Turing.

La computación en una sola máquina es lo que elige por defecto si sus necesidades computacionales pueden ser facilitadas por una sola máquina; es decir, no hay riesgo de que necesite escalar su cálculo a más de una máquina en el futuro. La mayoría de las empresas utilizan muchos servicios de máquinas individuales que se encuentran detrás de los equilibradores de carga. El modelo computacional de marcos distribuidos generalmente está destinado a cubrir tareas de manipulación de datos en particular.

La informática distribuida es complicada y costosa. Manipular un DataFrame de pandas en la memoria usando la API de Python es mucho más rápido que hacer las mismas manipulaciones en un RDD usando un clúster Spark. La optimización de un trabajo de Spark requiere que comprenda cómo el modelo computacional de Spark comprende las operaciones que le solicita y aplique el almacenamiento en caché para mejorar los cuellos de botella

(la imagen no es mía, la tomé de esta pregunta de StackOverflow ¿ Qué significa “Stage Skipped” en la interfaz de usuario web de Apache Spark? por el usuario Aravind R. Yarram )

Lambda [1] se considera una de las arquitecturas más comunes para las infraestructuras basadas en datos. Hoy en día, Spark, Hadoop y otros frameworks distribuidos son componentes centrales en muchas empresas. Sin embargo, tener dos sistemas distribuidos diferentes (como sugiere Lambda) con la misma funcionalidad para cubrir las necesidades de latencia alta y baja es complicado y difícil de mantener [2]. Muchas compañías se están moviendo hacia plataformas de transmisión pura. En este escenario, las bibliotecas como KafkaStream [3] pueden aprovechar el cómputo de una sola máquina para utilizar todas las ventajas de la división de datos sin la necesidad de un equilibrador de carga.

Notas al pie

[1] Cómo vencer el teorema CAP – pensamientos del planeta rojo – pensamientos del planeta rojo

[2] Cuestionando la arquitectura Lambda

[3] Presentación de Kafka Streams: procesamiento de flujo simplificado – Confluente

More Interesting

¿Cuáles son algunos de los conjuntos de habilidades esenciales que debe tener un desarrollador de aprendizaje automático?

¿Cómo detectar el sarcasmo en frases u oraciones mientras se extrae texto? ¿Hay alguna metodología utilizada?

¿Se puede entrenar la imagen usando la función de activación?

¿Cuál es la mejor manera de personalizar los artículos para un usuario en función de su historial de lectura?

¿Cuál es el mejor lenguaje para el procesamiento del lenguaje natural?

¿Cuáles son ejemplos cuando es útil generar muestras a partir de un modelo probabilístico?

Cómo realizar el etiquetado de palabras (POS, NER) para nuevas oraciones utilizando una red neuronal profunda (entrenada)

En la clasificación SVM, ¿es posible encontrar la muestra de entrenamiento más cercana a la muestra de prueba dada?

¿Qué es un proceso gaussiano?

¿Cuáles son los modelos actuales de análisis de sentimiento de arte independientemente de la efectividad?

¿Dónde puedo encontrar un conjunto de datos de texto traducido de cualquier idioma a otro válido para ser entrenado en un modelo de traducción automática en aprendizaje automático?

¿Cuáles son las características importantes para el análisis de sentimientos basado en aspectos en el enfoque de aprendizaje automático? ¿Qué algoritmos se pueden usar para extraer estas características?

¿Cuán eficientes pueden ser los datos de biomarcadores para predecir el deterioro clínico?

¿Cómo elegiría el marco de aprendizaje profundo adecuado para un proyecto?

¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?