¿Qué lenguaje de script puede funcionar con Big Data?

La respuesta es: depende de lo que entiendas por “trabajo”.

Tenga en cuenta que ‘big data’ es un concepto nebuloso: no especifica qué tipo de datos está tratando, ni dónde se obtienen los datos, ni cómo se empaquetan o cómo finalmente se entregan, ni cómo rápidamente necesita analizar los datos. Hay, y siempre ha habido, múltiples enfoques para manejar todos estos subproblemas en todos los idiomas: el tamaño de los datos por sí solo no es una restricción si tiene un grupo de computadoras lo suficientemente grande o está suficientemente familiarizado con algoritmos paralelos y tiene muchos de la memoria

Entonces, realmente, se reduce a qué idiomas tienen un amplio soporte para manejar estos problemas, y casi todos tienen compensaciones. Para el análisis de datos, Python, R y MATLAB han sido durante mucho tiempo herramientas estándar de la industria, con su soporte para el análisis estadístico y una sintaxis relativamente fácil. Si necesita manejar la ingestión de datos, las herramientas de código abierto como Apache Nutch y Pig tienen excelentes API de Java y ciertamente tienen envoltorios en otros idiomas.

Si elige trabajar con Hadoop (suponiendo que tenga un clúster, Amazon AWS puede ayudarlo con eso), tiene la opción de usar Python, Java y / o Scala para interactuar con él. Si desea hacerlo en programación paralela, Java, con su soporte para programación multiproceso, es su amigo (aunque Python también puede funcionar, siempre que esté dispuesto a sacrificar la programación multiproceso por la programación multiproceso; consulte el problema más difícil de Python, Revisited).

Si realmente desea un lenguaje de secuencias de comandos que resuelva estos problemas en todos los ámbitos, realmente debería mirar Python, aunque solo sea porque aparece mucho aquí. De lo contrario, consulte Java, que parece ser el idioma principal de la Apache Software Foundation.